Frissítve: 2 órája·Ma: 15
Kutatás
AI által generált szöveg

EasyRL: Új módszerrel kerüli el a LLM-ek betanítási csapdáit az ArXiv tanulmánya

Az EasyRL a kognitív tanulás elveit utánozza, megbízható tudásátadással és progresszív, oszd meg és uralkodj stratégiával dolgozik.

EasyRL: Új módszerrel kerüli el a LLM-ek betanítási csapdáit az ArXiv tanulmánya
Fotó: Jason Leung / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Új megközelítést mutat be a LLM-ek betanítására egy friss ArXiv tanulmány, amely az EasyRL nevet kapta. A módszer a korábbi megerősítő tanuláson (RL) alapuló rendszerek problémáit orvosolja, mint például a magas annotációs költségeket, a modellösszeomlást és a jutalom-hackelést — írja a kutatási publikáció.

Az EasyRL a humán kognitív képességek elsajátítási görbéjét szimulálja. Ehhez megbízható tudásátadást integrál könnyen címkézett adatokból, miközben egy progresszív, oszd meg és uralkodj stratégiával egyre nehezebb, címkézetlen adatokkal is megbirkózik.

A tanulás alapjai

Ezt követi egy oszd meg és uralkodj pszeudo-címkézési stratégia a nehéz, címkézetlen adatokon. Ez a módszer a konzisztencia-alapú kiválasztást alacsony bizonytalanságú esetekre, valamint a finomhangolást kombinálja.

Teljesítmény és hatékonyság

Az EasyRL célja, hogy adat-hatékonyan, mégis robusztusan javítsa a LLM-ek teljesítményét az ArXiv kutatási publikációban bemutatott 2024-es tesztek során.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom