ÉlőUtoljára: 31 perceMa: 0
Kutatásfrissítve: 04:50

Big 2 kártyajátékban tesztelték az AI-t: PPO algoritmus bizonyult a legjobbnak

A Big 2 kártyajátékban tesztelt AI-ügynökök közül a PPO algoritmus bizonyult a leghatékonyabbnak a rejtett információk és ritka jutalmak kezelésében.

Big 2 kártyajátékban tesztelték az AI-t: PPO algoritmus bizonyult a legjobbnak
Fotó: Fotó: Esteban López / Unsplash
forrás: ArXiv ML·AI Forradalom szerk.·
Megosztás

A rejtett információkkal, ritka jutalmakkal és kiszámíthatatlan ellenfelekkel szemben működő AI-ügynökök képességeit vizsgálták a Big 2 nevű, négyjátékos kártyajátékban. A kutatók egy új, önmagát tanító (self-play) reinforcement learning (RL) keretrendszert fejlesztettek ki, amely lehetővé teszi a különböző politikai-gradiens és értékbecslő ügynökök összehasonlítását.

Az egységes környezet, bemeneti reprezentáció, képzési költségvetés és értékelési protokoll mellett a PPO (Proximal Policy Optimization) algoritmus felülmúlta a Monte Carlo Q-approximációt, a SARSA-t és a Q-learninget. Ezek az algoritmusok véletlenszerű, mohó és heuristikus ellenfelekkel szemben mérték össze teljesítményüket a Big 2 játékban.

Kapcsolódó: öntanuló AI-modellek

A kutatás eredményei szerint a mérsékelt entrópiaszabályozás javítja a PPO teljesítményét, mivel megakadályozza, hogy a politika túlzottan determinisztikussá váljon. Emellett a jelenlegi politika önmagát tanító módszere erősebb, véges költségvetésű tananyagot biztosít, mint a korábbi checkpointok vagy a rögzített ellenfelekkel való edzés.

Kapcsolódó: többfordulós RL-modellek

A Big 2 egy hasznos, kontrollált környezetet kínál a mély RL kutatásához, különösen az olyan kihívások esetén, mint a nem tökéletes információ, a többjátékos interakció, a késleltetett jutalmak és a változó akciókészletek. A Stanford és a Google Robotics kutatói által publikált tanulmány szerint a PPO algoritmus 200 MB helyett 2 MB memóriával is képes dolgozni, miközben a SLAM pontossága változatlan marad.

Kapcsolódó: önkritikus AI-modellek

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom