Új AEM-módszerrel javul a többfordulós RL-modellek betanítása

Jelentősen javítja a nagyméretű nyelvi modellek (LLM) ügynökeinek képességét a környezettel való interakcióra és a többfordulós feladatok megoldására egy új, felügyelet nélküli módszer, az AEM — írja az ArXiv AI.

A megerősítéses tanulás (RL) eddig is nagyban hozzájárult a LLM-ek fejlődéséhez, de a hatékony betanítás továbbra is kihívás maradt. A ritka, csak az eredményre fókuszáló jutalmak miatt nehéz volt az ügynök cselekvési pályájának egyes lépéseihez krediteket rendelni.

Ezt a problémát gyakran sűrű, köztes felügyelettel orvosolták, például folyamatjutalmazási modellekkel vagy kiegészítő önszuppervizált jelekkel. Ez azonban növeli a felügyelet és a finomhangolás komplexitását, és gyakran rosszul általánosítható különböző feladatok és területek között.

Az AEM egy felügyelet nélküli kredit-hozzárendelési módszer, amely adaptívan modulálja az entrópia dinamikáját a RL betanítás során. Ezáltal hatékonyabb egyensúlyt teremt a felfedezés (exploration) és a kiaknázás (exploitation) között, ami jobb teljesítményt eredményez a többfordulós feladatokban.