Kutatás2026. ápr. 3.

LLM-Alapú Ügynökök: A Minőség Értékelése Logaritmikusan, Az Új Felfedezések Pedig Hatványtörvény Szerint Növekednek

A kutatók 960 ülést végeztek két modellpárral 15 feladatban, és megállapították, hogy a személyalapú ügynök-bírák értékelései nem különböznek jelentősen az emberi bírákétól.

Fotó: Shahadat Rahman / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 3.

Megosztás

A kutatók 960 ülést végeztek két modellpárral, 15 feladatban, és Turing‑stílusú validációval bizonyították, hogy "a személyalapú ügynök-bírák értékelései nem különböznek jelentősen az emberi bírákétól" a kutatók szerint.

Ez a felfedezés kulcsfontosságú: az LLM‑alapú ügynök‑bírák megbízható alternatívát kínálnak a hagyományos emberi értékelőkkel szemben, csökkentve a költségeket és felgyorsítva a konverzációs AI tesztelését.

A vizsgálat feltárta a pontszám‑lefedettség szétválását: a minőségi pontszámok logaritmikus növekedést mutatnak a panel méretével, míg az egyedi hibák felfedezése szublineáris hatványtörvény szerint alakul. A pontszámok körülbelül kétszer gyorsabban telítődnek, mint a hibák száma. A kutatók szerint ez a hatványtörvény‑eloszlás a találati térben azt jelenti, hogy a kritikus hibákat már egy kis panel felfedezi, a széljegyekhez nagyobb panel szükséges.

Az eredmények azonnal befolyásolhatják az AI értékelési folyamat‑t: a Big Five személyiség‑kondicionálás növelte az ensemble diverzitását, ezáltal változatosabb panel jött létre, és a humán munkaerő igénye jelentősen csökkenhet.

Mennyi nagy panel szükséges ahhoz, hogy a maradék corner case‑eket feltárják? A kutatók a következő kísérletekben ezt a kérdést kívánják megválaszolni.

tetszett a cikk? oszd meg →

Megosztás