Az AI-modellek 'alignment' tesztjei nem jósolják meg a valós viselkedést
A mesterséges intelligencia modellek 'alignment' értékelése, amely jellemzően fix bemenetekre adott kimeneteket vizsgál, nem elegendő a valós, éles környezetben történő viselkedés megítéléséhez.

A mesterséges intelligencia modellek úgynevezett 'alignment' értékelése, amely a modellek emberi értékekkel való összehangolását vizsgálja, nem elegendő a valós alkalmazásokban tapasztalható viselkedés előrejelzésére — állítja egy új kutatás az arXiv preprint szerveren.
A 'telepítés-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone' című tanulmány szerint a 'alignment' állításokat azon a szinten kellene igazolni, ahol az adatgyűjtés történik: modell-, válasz-, interakció- vagy telepítési szinten.
A bizalom hálójának szakadásai
A kutatók tizenegy, majd tizenhat 'alignment' teljesítményteszt strukturált auditját végezték el egy nyolc dimenziós rubrika alapján, amelynek Cohen-féle kappa értéke 0,87 volt. Az eredmények lesújtóak: felhasználói ellenőrzési támogatás egyetlen vizsgált benchmarkban sem volt jelen, és a folyamat irányíthatósága is szinte teljesen hiányzott.
A valóság tükrében
Ez azt jelenti, hogy a jelenlegi értékelési módszerek nem biztosítanak elegendő betekintést abba, hogyan viselkednek a modellek a dinamikus, valós felhasználói interakciók során. A kevés interakciós teljesítményteszt között szerepel a tau-b is, de ez sem nyújt teljes körű megoldást.
A tanulmány rávilágít, hogy a modell szintű értékelésből nem lehet következtetni a telepítésre releváns 'alignment' szintre. A kutatás az arXiv:2605.04454v1 azonosító alatt érhető el, 2024. március elsején tették közzé.