Új AEM-módszerrel javul a többfordulós RL-modellek betanítása
Az AEM a token-szintű entrópiamodulációt válasz-szintre emeli, ezzel csökkentve a mintavételezési varianciát a betanítás során.

Jelentősen javítja a nagyméretű nyelvi modellek (LLM) ügynökeinek képességét a környezettel való interakcióra és a többfordulós feladatok megoldására egy új, felügyelet nélküli módszer, az AEM — írja az ArXiv AI.
A megerősítéses tanulás (RL) eddig is nagyban hozzájárult a LLM-ek fejlődéséhez, de a hatékony betanítás továbbra is kihívás maradt. A ritka, csak az eredményre fókuszáló jutalmak miatt nehéz volt az ügynök cselekvési pályájának egyes lépéseihez krediteket rendelni.
Ezt a problémát gyakran sűrű, köztes felügyelettel orvosolták, például folyamatjutalmazási modellekkel vagy kiegészítő önszuppervizált jelekkel. Ez azonban növeli a felügyelet és a finomhangolás komplexitását, és gyakran rosszul általánosítható különböző feladatok és területek között.
Az AEM egy felügyelet nélküli kredit-hozzárendelési módszer, amely adaptívan modulálja az entrópia dinamikáját a RL betanítás során. Ezáltal hatékonyabb egyensúlyt teremt a felfedezés (exploration) és a kiaknázás (exploitation) között, ami jobb teljesítményt eredményez a többfordulós feladatokban.