Rovat · 16. oldal

Kutatás

AI research papers, arXiv publikációk, benchmarkok, tudományos áttörések

1159 cikk az archívumban

Kilencven százalékos pontossággal jósolja az AI a térdízületi fájdalmat

Egy új AI-megoldás 90%-os pontossággal képes előrejelezni a térdízületi fájdalmat. A kutatók az Osteoarthritis Initiative adatait használták fel a módszer kidolgozásához.

ArXiv AI·1 hónapjaAI

Kutatás

Diffrax hétszer gyorsabb valószínűségszámításra a kozmológiai modellekben, mutatja a kutatók

A kozmológus Samit Ganguly 2026. június 6-án jelentette be a Diffrax könyvtár áttörését. A JAX-alapú megoldás 5,9 másodperc alatt hajtja végre a 100 000 valószínűségértékelést.

Towards Data Science·1 hónapjaAI

Kutatás

A Sakana AI öntanuló AI-rendszerekkel kívánja megkerülni a számítási háborút

A japán Sakana AI megalapította a Sakana AI RSI Lab kutatócsoportot, amely az AI-rendszerek önmagukat fejlesztő képességét vizsgálja, és alternatívát kínál a folyamatosan növekvő számítási kapacitást igénylő modellekkel szemben.

The Decoder·1 hónapjaAI

Kutatás

Új AI-rendszer segíti a matematikusokat a bizonyításokban — 258 tételt igazolt

A LeanMarathon, egy új AI-rendszer, megbízhatóbbá teszi a kutatási szintű matematikai bizonyításokat. A rendszer 258 tételt és lemmát igazolt sikeresen, négy Erdős-problémát érintve.

ArXiv AI·1 hónapjaAI

Kutatás

Új hibrid architektúra javítja a Nemotron 3 teljesítményét

A Nemotron 3 Super modell gyártásba került, és hibrid architektúrájának köszönhetően hatékonyabban dolgozza fel a hosszú szövegeket. Sebastian Raschka összegyűjtötte a 2026 első felében megjelent legérdekesebb nagy nyelvi modell kutatási eredményeit.

Ahead of AI·1 hónapjaAI

Kutatás

271 beteg adataival fejlesztették ki az új AI-modellt

Kutatók egy új AI-modellt fejlesztettek ki, amely 0,85-ös egyezési mutatóval méri fel a makuladegeneráció súlyosságát. A modell 271, 50 év feletti résztvevő adataiból tanult.

ArXiv CV·1 hónapjaAI

Kutatás

Nyelvi modellek rejtett dinamikája előrejelzi az emberi feldolgozási költségeket

A nyelvi modellek rejtett állapotainak dinamikája jobban megjósolja az emberi szövegértés sebességét, mint a korábbi, kizárólag a szavak valószínűségére építő módszerek. Ez a megközelítés pontosabb mércéje a feldolgozási költségeknek.

ArXiv NLP·1 hónapjaAI

Kutatás

Új AI-ügynök keres a fotóink között, válaszol a kérdésekre

Új AI-ügynök, a camroll-agent képes hozzáférni a felhasználó fotóihoz és releváns képeket keresni kérdések megválaszolásához. Az adatbázis 50 felhasználót, 31 476 képet és 2500 kérdés-válasz párt tartalmaz.

ArXiv CV·1 hónapjaAI

Kutatás

AI-modellek 21 százalékponttal jobban válaszolnak a komplex kérdésekre

Az AI-modellek 21 százalékponttal jobban teljesítenek a többtáblás adatbázis-kérdések megválaszolásában egy új, szintetikus adatkészletet használó tréningmódszerrel. Az új eljárás a Qwen3-14B, Mistral-8B és Llama-3.1-8B modelleken is kimutatható fejlődést hozott.

ArXiv AI·1 hónapjaAI

Kutatás

UniPixie: Új AI-modell 50%-kal pontosabban jósolja meg az anyagok fizikai tulajdonságait

Az UniPixie nevű új AI-keretrendszer képes az anyagok fizikai tulajdonságait több mint 50%-kal pontosabban megjósolni, mint a korábbi módszerek.

ArXiv CV·1 hónapjaAI

Kutatás

Modellomlást okozhat a szintetikus adat – kutatók fejlesztenek új módszert a szennyeződés modellezésére

A szintetikus adatok használata miatt kialakuló modellomlás jelenségét epidemiológiai szempontból vizsgálják, és ennek keretében azonosítják a szennyeződési folyamatokat.

ArXiv NLP·1 hónapjaAI

Kutatás

Új módszerrel vizsgálják a chatbotok meggyőző erejét — az LLM-ek szöveggel és hanggal is befolyásolnak

Az LLM-ek az emberek hiedelmeit is képesek megváltoztatni, akár fontos témákban is, ám a korábbi modellek nem tudták pontosan visszaadni a meggyőzési folyamatot.

ArXiv NLP·1 hónapjaAI

Kutatás

Az új pontozási eljárás 89%-os pontossággal állítja helyre az írásjeleket

A kutatók által kidolgozott új eljárás 0.893-as F1-pontszámot ér el írásjelek helyreállításában, ami jelentős előrelépés a korábbi módszerekhez képest.

ArXiv NLP·1 hónapjaAI

Kutatás

Új hibrid módszerrel mélyebb szemantikai struktúrát érhetnek el a nyelvi modellek

Az arXiv kutatói JEPA és MLM célokat kombináló hibrid módszert javasolnak a nyelvi modellek mélyebb szemantikai megértéséért, amely egyenletesebb és gazdagabb reprezentációkat eredményez.

ArXiv NLP·1 hónapjaAI

Kutatás

Új teljesítményteszt teszteli az AI-ügynökök hosszú távú figyelmét

Az új SentinelBench teljesítményteszt 100 feladatot és 10 szimulált webes környezetet használ az AI-ügynökök hosszú távú figyelmének és reagálási idejének mérésére.

ArXiv AI·1 hónapjaAI

Kutatás

Hat adathalmazt egységesít az új StandardE2E keretrendszer az autonóm vezetéshez

Az új StandardE2E keretrendszer egységes interfészt kínál hat különböző adathalmazhoz, megkönnyítve az autonóm járművekkel kapcsolatos kutatásokat.

ArXiv CV·1 hónapjaAI

Kutatás

2,6%-os átlagos sikerrel zárnak az AI-ügynökök az új 'Agents' Last Exam' teljesítményteszten

Az új Agents' Last Exam (ALE) teljesítményteszt 1000-nél is több feladattal méri az AI-ügynökök valós idejű, gazdaságilag értékes teljesítményét, 2,6%-os átlagos sikerrel.

ArXiv AI·1 hónapjaAI

Kutatás

AI-ügynökök: Autonómia csak bizonyítékokkal — új keretrendszer az arXiv-ról

Az arXiv-on publikált Digital Apprentice keretrendszer azt ígéri, hogy az AI-ügynökök csak akkor kapnak nagyobb autonómiát, ha azt empirikus bizonyítékok is alátámasztják.

ArXiv AI·1 hónapjaAI

Kutatás

Új keretrendszerrel biztonságosabbak lehetnek az AI-ügynökök — csökkennek a félrehallucinációk

A RUBAS keretrendszer négy dimenzióban vizsgálja az AI-ügynökök viselkedését, csökkentve a hibás eszközhasználatot és a félrehallucinációkat.

ArXiv ML·1 hónapjaAI

Kutatás

Két nagyságrendet javít a hiányos adatok kezelésén az új AI-módszer

Az új DFPL keretrendszer a prototípusok szintjén bontja szét és igazítja a kép-táblázat adatokat, így jobban teljesít a korábbi módszereknél.

ArXiv CV·1 hónapjaAI

Kutatás

Az Omni LLM-ek nehezen kezelik a finom kockázatokat — új teljesítményteszt érkezett

A MCBench 1196 forgatókönyvvel méri az Omni LLM-ek biztonságát, kiemelve a finom kockázatok kezelésének nehézségeit.

ArXiv NLP·1 hónapjaAI