Az LLM-ek értékelési protokolljai hiányosak, új megoldásokat várnak
Ha a modell részt vesz saját kiértékelésében, a mérőszámok torzulnak – ezt a problémát vetette fel Kevin O'Shaughnessy a LessWrong platformon, az Opus 4.6 System Cardot kritizáló elemzésekre hivatkozva.

Kevin O'Shaughnessy 2026. április 3-án a LessWrong AI oldalon kérdést tett fel, amely Yaniv Golan és Zvi Mowshowitz kritikáira hivatkozik az Opus 4.6 System Card-ról, valamint Peter Wildeford rövid megjegyzésére. A bejegyzés 0 hozzászólással érkezett.
A kritikusok rámutattak, hogy ha a modell maga is részt vesz a saját kiértékelési folyamatában, a mérőszámok torzulhatnak, ami aláássa a LLM-ek megbízható összehasonlítását.
A "when the evaluator becomes the evaluated" címmel ellátott elemzés szerint a modell egyszerre értékelő és értékelt szerepet tölt be, ami ellentétes a szokásos, független protokollokkal. A kérdésben felvetett hiányosság már elismerésre talált a szakmai körökben.
Formális protokollok hiánya csökkentheti a kiértékelések átláthatóságát, és megnehezítheti a LLM-ek teljesítményének objektív mérését. A közösségnek most a szabályozott lépések és auditálható adatrendszerek kidolgozására kell fókuszálnia.
A felvetett kérdés arra irányul, hogy a probléma már aktív fejlesztés tárgya‑e, és milyen konkrét megoldások létezhetnek a jövőben. A válaszok alakulása meghatározhatja a következő generációs LLM‑értékelések alapját.