AI-ügynökök buknak a hosszú elemzéseken: 48%-os pontosság az új teszten
A legjobb modellek is csak 48,45%-os pontossággal teljesítenek a LongDS nevű új teljesítményteszten, amely az iteratív, hosszú távú adatelemzési feladatokat vizsgálja.

Az AI-ügynökök valós idejű adatelemzési képességeit teszteli a LongDS, egy új teljesítményteszt, amelyet a kutatók a Kaggle-felhasználók valós feladatai alapján hoztak létre. A korábbi tesztekkel ellentétben a LongDS az iteratív, több lépésből álló elemzési folyamatokat vizsgálja, ahol az ügynöknek meg kell tartania, frissítenie és összekomponálnia az elemzési állapotokat. A teljesítményteszt 68 feladatot foglal magában, hat különböző doménban, mint például a geoscience, üzleti és oktatási területek, összesen 2225 interakciós fordulóval. A feladatok átlagosan 11,3 lépéses függőségi láncokat tartalmaznak, amelyek a folyamatos állapotváltozásokra épülnek — írja az arXiv.
Az öt legfejlettebb modell tesztelése során kiderült, hogy a legjobb modell is csak 48,45%-os átlagos pontosságot ért el. A teljesítmény drámaian csökken a feladatok előrehaladtával: a korai és késői fordulók között csaknem 47 százalékpontos különbség mutatkozik. A hibák több mint fele, 52-69%-a pedig kifejezetten a hosszú távú állapotkezelés hiányosságaiból adódik.
Kapcsolódó: LLM-tesztek
Az elemzési állapotok labirintusa
A kutatók szerint a probléma nem a számítási kapacitásban rejlik. Az elemzés azt mutatja, hogy az ügynökök további lépései nem feltétlenül javítják a teljesítményt. A kulcsfontosságú szűk keresztmetszet az elemzési állapot helyes fenntartása, nem pedig az interakciós keret növelése.
Kapcsolódó: tudományos adatelemzés
A fejlődés horizontja
A LongDS célja, hogy támogassa a kutatásokat a megbízható, hosszú távú, ügynökvezérelt adatelemzés területén. A kód és az adatok a https://github.com/zjunlp/DataMind címen lesznek elérhetők a 2024. év elejétől kezdve.
Kapcsolódó: AI-ügynök hibák