EasyRL: Új módszerrel kerüli el a LLM-ek betanítási csapdáit az ArXiv tanulmánya
Az EasyRL a kognitív tanulás elveit utánozza, megbízható tudásátadással és progresszív, oszd meg és uralkodj stratégiával dolgozik.

Új megközelítést mutat be a LLM-ek betanítására egy friss ArXiv tanulmány, amely az EasyRL nevet kapta. A módszer a korábbi megerősítő tanuláson (RL) alapuló rendszerek problémáit orvosolja, mint például a magas annotációs költségeket, a modellösszeomlást és a jutalom-hackelést — írja a kutatási publikáció.
Az EasyRL a humán kognitív képességek elsajátítási görbéjét szimulálja. Ehhez megbízható tudásátadást integrál könnyen címkézett adatokból, miközben egy progresszív, oszd meg és uralkodj stratégiával egyre nehezebb, címkézetlen adatokkal is megbirkózik.
A tanulás alapjai
Ezt követi egy oszd meg és uralkodj pszeudo-címkézési stratégia a nehéz, címkézetlen adatokon. Ez a módszer a konzisztencia-alapú kiválasztást alacsony bizonytalanságú esetekre, valamint a finomhangolást kombinálja.
Teljesítmény és hatékonyság
Az EasyRL célja, hogy adat-hatékonyan, mégis robusztusan javítsa a LLM-ek teljesítményét az ArXiv kutatási publikációban bemutatott 2024-es tesztek során.