A RVPO 0.261-re javítja a HealthBench pontszámát, elkerülve a „kényszerelhanyagolást”
A jelenlegi RLHF-módszerek gyengesége, hogy az átlagolás miatt figyelmen kívül hagyhatják a kritikus biztonsági vagy formázási korlátokat, ezt orvosolja az új megközelítés.

Új módszert dolgoztak ki az IBM Research kutatói a nagyméretű nyelvi modellek (LLM) megbízhatóbb igazítására, elkerülve az úgynevezett „kényszerelhanyagolást”. A Reward-Variance Policy Optimization (RVPO) névre keresztelt eljárás a jutalmak közötti variancia büntetésével a konzisztenciát helyezi előtérbe az összeg maximalizálása helyett — írja az Ivan Montero, Tomasz Jurczyk és Bhuwan Dhingra által jegyzett tanulmány, amely előnyomtatott formában jelent meg.
A jelenlegi, kritika nélküli megerősítéses tanulási (RLHF) módszerek gyakran számtani átlaggal összesítik a többcélú jutalmakat. Ez a megközelítés sebezhetővé teszi őket a „kényszerelhanyagolással” szemben, ahol egy célban elért nagy siker elfedheti a más, kritikus területeken (például biztonság vagy formázás) tapasztalt hibákat.
A kényszerelhanyagolás csapdájából való szabadulás
A RVPO célja, hogy ezt a problémát kiküszöbölje, és a modelleket arra ösztönözze, hogy minden célkitűzésben egyenletesen teljesítsenek. A RVPO a jutalmak közötti varianciát bünteti az előnyök aggregálása során, így a célkitűzés a „jutalmak összegének maximalizálásáról” a „konzisztencia maximalizálására” tolódik el.
A kutatók Taylor-sorfejtéssel igazolták, hogy egy LogSumExp (SoftMin) operátor hatékonyan működik sima variancia büntetésként. Ez a megközelítés megakadályozza, hogy a modellek a nehéz korlátokat elhanyagolják a könnyebb célok kihasználása érdekében, miközben megőrzik az általános képességeket.
Erősítsd a gyenge láncszemeket
A módszert rubrika alapú orvosi és tudományos érvelési feladatokon értékelték, akár 17 egyidejű, LLM által értékelt jutalomjellel (Qwen2.5-3B/7B/14B modellekkel), valamint szabályalapú korlátokkal rendelkező eszközhívási feladatokon (Qwen2.5-1.5B/3B modellekkel). A RVPO jelentős javulást mutatott az általános pontszámokban a HealthBench-en (0.261 vs. 0.215 GDPO esetén 14B-n, p < 0.001) a kutatók szerint.
A variancia-szabályozás mérsékli a kényszerelhanyagolást a modellméretek széles skáláján anélkül, hogy feláldozná az általános képességeket. Az IBM Research kutatói 2024-ben tervezik folytatni a RVPO fejlesztését a Qwen2.5-3B modell további fejlesztésével.