Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Új AEM-módszerrel javul a többfordulós RL-modellek betanítása

Az AEM a token-szintű entrópiamodulációt válasz-szintre emeli, ezzel csökkentve a mintavételezési varianciát a betanítás során.

Új AEM-módszerrel javul a többfordulós RL-modellek betanítása
Fotó: National Institute of Allergy and Infectious Diseases / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Jelentősen javítja a nagyméretű nyelvi modellek (LLM) ügynökeinek képességét a környezettel való interakcióra és a többfordulós feladatok megoldására egy új, felügyelet nélküli módszer, az AEM — írja az ArXiv AI.

A megerősítéses tanulás (RL) eddig is nagyban hozzájárult a LLM-ek fejlődéséhez, de a hatékony betanítás továbbra is kihívás maradt. A ritka, csak az eredményre fókuszáló jutalmak miatt nehéz volt az ügynök cselekvési pályájának egyes lépéseihez krediteket rendelni.

Ezt a problémát gyakran sűrű, köztes felügyelettel orvosolták, például folyamatjutalmazási modellekkel vagy kiegészítő önszuppervizált jelekkel. Ez azonban növeli a felügyelet és a finomhangolás komplexitását, és gyakran rosszul általánosítható különböző feladatok és területek között.

Az AEM egy felügyelet nélküli kredit-hozzárendelési módszer, amely adaptívan modulálja az entrópia dinamikáját a RL betanítás során. Ezáltal hatékonyabb egyensúlyt teremt a felfedezés (exploration) és a kiaknázás (exploitation) között, ami jobb teljesítményt eredményez a többfordulós feladatokban.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom