COSPLAY: Új keretrendszer javítja a LLM-ek hosszú távú döntéshozatalát
A keretrendszerben egy LLM döntéshozó ügynök egy tanulható készségbankból hív le tudást, miközben egy másik ügynök új, újrafelhasználható készségeket fedez fel a modell futásaiból.

Hosszú távú interaktív környezetekben, például játékokban, az ügynökök készséghasználatának értékelése kulcsfontosságú. Ezek a környezetek többlépéses érvelést, számos készség összekapcsolását és robusztus döntéshozatalt igényelnek, késleltetett jutalmak és részleges megfigyelhetőség mellett — írja az ArXiv AI kutatása.
A nagyméretű nyelvi modellek (LLM-ek) ígéretes alternatívát kínálnak játékos ügynökként, de gyakran küzdenek a következetes, hosszú távú döntéshozatallal. Ennek oka, hogy hiányzik belőlük a mechanizmus a strukturált készségek felfedezésére, megőrzésére és újrafelhasználására az egyes epizódok között.
A kutatók most bemutatták a COSPLAY nevű, koevolúciós keretrendszert. Ebben egy LLM döntéshozó ügynök egy tanulható készségbankból hív le készségeket a cselekvés irányításához. Ezzel párhuzamosan egy másik, ügynök által kezelt készségfolyamat felfedezi az újrafelhasználható készségeket az ügynök címkézetlen futásaiból, és ezekből építi fel a készségbankot.
A készségek felfedezésének szövetsége
Ez a megközelítés javítja a döntéshozó ügynök képességét a jobb készséghívásra és cselekvésre. A COSPLAY célja, hogy a LLM-ek hatékonyabban birkózzanak meg azokkal a komplex feladatokkal, amelyek több lépésben, hosszú időtávon keresztül zajlanak, különösen a játékok területén.
A jövő játékosai
A COSPLAY keretrendszer fejlesztését az ArXiv AI kutatása vezeti, és a kutatók remélik, hogy a technológia 2024-ben eléri a szélesebb közönséget.