Új ICRL rendszerrel tanulnak önkritikát az AI-modellek — javul a hibajavítás
A rendszer egy megoldó és egy kritikus modellt képez közösen, így a kritikákból származó sikereket önálló képességgé alakítja át.

Önkritikával tanulnak a nagyméretű nyelvi modellek (LLM-ek) az ICRL (Learning to Internalize Self-Critique with Reinforcement Learning) nevű új megközelítésnek köszönhetően — írja az ArXiv-en megjelent tanulmány.
A kutatók szerint a LLM-alapú ágensek gyakran hibáznak, és bár a külső kritika segíthet a helyes viselkedés elsajátításában, a kritika eltávolítása után a modell újra elbukhat ugyanazon a feladaton. Ez azt jelzi, hogy a modell nem internalizálta a visszajelzést, nem építette be alapvető képességeibe. Emellett a rögzített kritikus modellek nem képesek javítani visszajelzéseik minőségén, ami korlátozza az iteratív önfejlesztés lehetőségét.
Az ICRL egy olyan keretrendszer, amely egy közös alapon képzi a megoldó és a kritikus modellt. A kritikus modell jutalmazása a megoldó későbbi teljesítményjavulásán alapul, ami ösztönzi a hasznos visszajelzések generálását. A módszer a kritika által kiváltott sikert önálló megoldó képességgé alakítja át.
Az ICRL egy elosztás-kalibrációs súlyozási arányt is bevezet, amely szelektíven kezeli a kritika által kondicionált és a kritika nélküli viselkedés közötti eloszlást. Ez a token-szintű kapuzási mechanizmus akár 9,4%-os sikerességi arány javulást is eredményezhet az ALFWorld teljesítményteszten.