ÉlőUtoljára: 53 perceMa: 9
Kutatásfrissítve: 04:30

COSPLAY: Új keretrendszer javítja a LLM-ek hosszú távú döntéshozatalát

A keretrendszerben egy LLM döntéshozó ügynök egy tanulható készségbankból hív le tudást, miközben egy másik ügynök új, újrafelhasználható készségeket fedez fel a modell futásaiból.

COSPLAY: Új keretrendszer javítja a LLM-ek hosszú távú döntéshozatalát
Fotó: Fotó: Enchanted Tools / Unsplash
forrás: ArXiv AI·AI Forradalom szerk.·
Megosztás

Hosszú távú interaktív környezetekben, például játékokban, az ügynökök készséghasználatának értékelése kulcsfontosságú. Ezek a környezetek többlépéses érvelést, számos készség összekapcsolását és robusztus döntéshozatalt igényelnek, késleltetett jutalmak és részleges megfigyelhetőség mellett — írja az ArXiv AI kutatása.

A nagyméretű nyelvi modellek (LLM-ek) ígéretes alternatívát kínálnak játékos ügynökként, de gyakran küzdenek a következetes, hosszú távú döntéshozatallal. Ennek oka, hogy hiányzik belőlük a mechanizmus a strukturált készségek felfedezésére, megőrzésére és újrafelhasználására az egyes epizódok között.

A kutatók most bemutatták a COSPLAY nevű, koevolúciós keretrendszert. Ebben egy LLM döntéshozó ügynök egy tanulható készségbankból hív le készségeket a cselekvés irányításához. Ezzel párhuzamosan egy másik, ügynök által kezelt készségfolyamat felfedezi az újrafelhasználható készségeket az ügynök címkézetlen futásaiból, és ezekből építi fel a készségbankot.

A készségek felfedezésének szövetsége

Ez a megközelítés javítja a döntéshozó ügynök képességét a jobb készséghívásra és cselekvésre. A COSPLAY célja, hogy a LLM-ek hatékonyabban birkózzanak meg azokkal a komplex feladatokkal, amelyek több lépésben, hosszú időtávon keresztül zajlanak, különösen a játékok területén.

A jövő játékosai

A COSPLAY keretrendszer fejlesztését az ArXiv AI kutatása vezeti, és a kutatók remélik, hogy a technológia 2024-ben eléri a szélesebb közönséget.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom