Kutatás2026. jún. 1.frissítve: 04:50

AI-ügynökök buknak a hosszú elemzéseken: 48%-os pontosság az új teszten

A legjobb modellek is csak 48,45%-os pontossággal teljesítenek a LongDS nevű új teljesítményteszten, amely az iteratív, hosszú távú adatelemzési feladatokat vizsgálja.

Fotó: Fotó: Logan Gutierrez / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. június 1.

Megosztás

Az AI-ügynökök valós idejű adatelemzési képességeit teszteli a LongDS, egy új teljesítményteszt, amelyet a kutatók a Kaggle-felhasználók valós feladatai alapján hoztak létre. A korábbi tesztekkel ellentétben a LongDS az iteratív, több lépésből álló elemzési folyamatokat vizsgálja, ahol az ügynöknek meg kell tartania, frissítenie és összekomponálnia az elemzési állapotokat. A teljesítményteszt 68 feladatot foglal magában, hat különböző doménban, mint például a geoscience, üzleti és oktatási területek, összesen 2225 interakciós fordulóval. A feladatok átlagosan 11,3 lépéses függőségi láncokat tartalmaznak, amelyek a folyamatos állapotváltozásokra épülnek — írja az arXiv.

Az öt legfejlettebb modell tesztelése során kiderült, hogy a legjobb modell is csak 48,45%-os átlagos pontosságot ért el. A teljesítmény drámaian csökken a feladatok előrehaladtával: a korai és késői fordulók között csaknem 47 százalékpontos különbség mutatkozik. A hibák több mint fele, 52-69%-a pedig kifejezetten a hosszú távú állapotkezelés hiányosságaiból adódik.

Kapcsolódó: LLM-tesztek

Az elemzési állapotok labirintusa

A kutatók szerint a probléma nem a számítási kapacitásban rejlik. Az elemzés azt mutatja, hogy az ügynökök további lépései nem feltétlenül javítják a teljesítményt. A kulcsfontosságú szűk keresztmetszet az elemzési állapot helyes fenntartása, nem pedig az interakciós keret növelése.

Kapcsolódó: tudományos adatelemzés

A fejlődés horizontja

A LongDS célja, hogy támogassa a kutatásokat a megbízható, hosszú távú, ügynökvezérelt adatelemzés területén. A kód és az adatok a https://github.com/zjunlp/DataMind címen lesznek elérhetők a 2024. év elejétől kezdve.

Kapcsolódó: AI-ügynök hibák

tetszett a cikk? oszd meg →

Megosztás