Kutatás2026. máj. 8.frissítve: 11:50

Az AI-modellek 'alignment' tesztjei nem jósolják meg a valós viselkedést

A mesterséges intelligencia modellek 'alignment' értékelése, amely jellemzően fix bemenetekre adott kimeneteket vizsgál, nem elegendő a valós, éles környezetben történő viselkedés megítéléséhez.

Fotó: National Cancer Institute / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 8.

Megosztás

A mesterséges intelligencia modellek úgynevezett 'alignment' értékelése, amely a modellek emberi értékekkel való összehangolását vizsgálja, nem elegendő a valós alkalmazásokban tapasztalható viselkedés előrejelzésére — állítja egy új kutatás az arXiv preprint szerveren.

A 'telepítés-Relevant Alignment Cannot Be Inferred from Model-Level Evaluation Alone' című tanulmány szerint a 'alignment' állításokat azon a szinten kellene igazolni, ahol az adatgyűjtés történik: modell-, válasz-, interakció- vagy telepítési szinten.

A bizalom hálójának szakadásai

A kutatók tizenegy, majd tizenhat 'alignment' teljesítményteszt strukturált auditját végezték el egy nyolc dimenziós rubrika alapján, amelynek Cohen-féle kappa értéke 0,87 volt. Az eredmények lesújtóak: felhasználói ellenőrzési támogatás egyetlen vizsgált benchmarkban sem volt jelen, és a folyamat irányíthatósága is szinte teljesen hiányzott.

A valóság tükrében

Ez azt jelenti, hogy a jelenlegi értékelési módszerek nem biztosítanak elegendő betekintést abba, hogyan viselkednek a modellek a dinamikus, valós felhasználói interakciók során. A kevés interakciós teljesítményteszt között szerepel a tau-b is, de ez sem nyújt teljes körű megoldást.

A tanulmány rávilágít, hogy a modell szintű értékelésből nem lehet következtetni a telepítésre releváns 'alignment' szintre. A kutatás az arXiv:2605.04454v1 azonosító alatt érhető el, 2024. március elsején tették közzé.

tetszett a cikk? oszd meg →

Megosztás