LLM-Alapú Ügynökök: A Minőség Értékelése Logaritmikusan, Az Új Felfedezések Pedig Hatványtörvény Szerint Növekednek
A kutatók 960 ülést végeztek két modellpárral 15 feladatban, és megállapították, hogy a személyalapú ügynök-bírák értékelései nem különböznek jelentősen az emberi bírákétól.

A kutatók 960 ülést végeztek két modellpárral, 15 feladatban, és Turing‑stílusú validációval bizonyították, hogy "a személyalapú ügynök-bírák értékelései nem különböznek jelentősen az emberi bírákétól" a kutatók szerint.
Ez a felfedezés kulcsfontosságú: a LLM‑alapú ügynök‑bírák megbízható alternatívát kínálnak a hagyományos emberi értékelőkkel szemben, csökkentve a költségeket és felgyorsítva a konverzációs AI tesztelését.
A vizsgálat feltárta a pontszám‑lefedettség szétválását: a minőségi pontszámok logaritmikus növekedést mutatnak a panel méretével, míg az egyedi hibák felfedezése szublineáris hatványtörvény szerint alakul. A pontszámok körülbelül kétszer gyorsabban telítődnek, mint a hibák száma. A kutatók szerint ez a hatványtörvény‑eloszlás a találati térben azt jelenti, hogy a kritikus hibákat már egy kis panel felfedezi, a széljegyekhez nagyobb panel szükséges.
Az eredmények azonnal befolyásolhatják az AI értékelési folyamat‑t: a Big Five személyiség‑kondicionálás növelte az ensemble diverzitását, ezáltal változatosabb panel jött létre, és a humán munkaerő igénye jelentősen csökkenhet.
Mennyi nagy panel szükséges ahhoz, hogy a maradék corner case‑eket feltárják? A kutatók a következő kísérletekben ezt a kérdést kívánják megválaszolni.