Kutatás2026. máj. 18.frissítve: 05:50

Új ICRL rendszerrel tanulnak önkritikát az AI-modellek — javul a hibajavítás

A rendszer egy megoldó és egy kritikus modellt képez közösen, így a kritikákból származó sikereket önálló képességgé alakítja át.

Fotó: Fotó: National Cancer Institute / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 18.

Megosztás

Önkritikával tanulnak a nagyméretű nyelvi modellek (LLM-ek) az ICRL (Learning to Internalize Self-Critique with Reinforcement Learning) nevű új megközelítésnek köszönhetően — írja az ArXiv-en megjelent tanulmány.

A kutatók szerint a LLM-alapú ágensek gyakran hibáznak, és bár a külső kritika segíthet a helyes viselkedés elsajátításában, a kritika eltávolítása után a modell újra elbukhat ugyanazon a feladaton. Ez azt jelzi, hogy a modell nem internalizálta a visszajelzést, nem építette be alapvető képességeibe. Emellett a rögzített kritikus modellek nem képesek javítani visszajelzéseik minőségén, ami korlátozza az iteratív önfejlesztés lehetőségét.

Az ICRL egy olyan keretrendszer, amely egy közös alapon képzi a megoldó és a kritikus modellt. A kritikus modell jutalmazása a megoldó későbbi teljesítményjavulásán alapul, ami ösztönzi a hasznos visszajelzések generálását. A módszer a kritika által kiváltott sikert önálló megoldó képességgé alakítja át.

Az ICRL egy elosztás-kalibrációs súlyozási arányt is bevezet, amely szelektíven kezeli a kritika által kondicionált és a kritika nélküli viselkedés közötti eloszlást. Ez a token-szintű kapuzási mechanizmus akár 9,4%-os sikerességi arány javulást is eredményezhet az ALFWorld teljesítményteszten.

tetszett a cikk? oszd meg →

Megosztás