PolitNuggets: 400 politikus életrajzával teszteli az AI-ügynökök ténygyűjtését
A PolitNuggets egy többnyelvű rendszer, amely 400 globális elit politikus életrajzának összeállításával értékeli az AI-ügynökök információszintézisét.

Új teljesítménytesztet mutatott be az ArXiv AI, amely PolitNuggets néven a nagyméretű érvelő modellek (LRM) ügynöki képességeit teszteli a „long-tail” politikai tények felfedezésében és szintetizálásában — írja a kutatás.
A rendszer több mint 10 000 politikai tényt fed le, és 400 globális politikus életrajzát építi fel, hogy felmérje, mennyire képesek a modellek szétszórt forrásokból származó, finom részleteket tartalmazó információkat feldolgozni. A kutatók szerint a valós használathoz elengedhetetlen ez a képesség, ám eddig alulértékelték.
A PolitNuggets mélyére ásva
A PolitNuggets szabványosított értékelést alkalmaz egy optimalizált többügynökös rendszerrel, és bevezet egy FactNet nevű, bizonyítékfüggő protokollt. Ez a protokoll értékeli a tények felfedezését, a finom szemcsés pontosságot és a hatékonyságot.
Tények és tévhitek
A tesztek során kiderült, hogy a jelenlegi rendszerek gyakran küzdenek a finom részletekkel, és hatékonyságuk is jelentősen eltér. A teljesítményteszt diagnosztikája segít a kutatóknak abban, hogy az ügynökök teljesítményét az alapul szolgáló modellképességekhez kapcsolják, kiemelve az alapvető modellképességek fontosságát. A FactNet protokoll 2024. január elsejével kezdte meg működését az ArXiv AI-n.