Big 2 kártyajátékban tesztelték az AI-t: PPO algoritmus bizonyult a legjobbnak
A Big 2 kártyajátékban tesztelt AI-ügynökök közül a PPO algoritmus bizonyult a leghatékonyabbnak a rejtett információk és ritka jutalmak kezelésében.

A rejtett információkkal, ritka jutalmakkal és kiszámíthatatlan ellenfelekkel szemben működő AI-ügynökök képességeit vizsgálták a Big 2 nevű, négyjátékos kártyajátékban. A kutatók egy új, önmagát tanító (self-play) reinforcement learning (RL) keretrendszert fejlesztettek ki, amely lehetővé teszi a különböző politikai-gradiens és értékbecslő ügynökök összehasonlítását.
Az egységes környezet, bemeneti reprezentáció, képzési költségvetés és értékelési protokoll mellett a PPO (Proximal Policy Optimization) algoritmus felülmúlta a Monte Carlo Q-approximációt, a SARSA-t és a Q-learninget. Ezek az algoritmusok véletlenszerű, mohó és heuristikus ellenfelekkel szemben mérték össze teljesítményüket a Big 2 játékban.
Kapcsolódó: öntanuló AI-modellek
A kutatás eredményei szerint a mérsékelt entrópiaszabályozás javítja a PPO teljesítményét, mivel megakadályozza, hogy a politika túlzottan determinisztikussá váljon. Emellett a jelenlegi politika önmagát tanító módszere erősebb, véges költségvetésű tananyagot biztosít, mint a korábbi checkpointok vagy a rögzített ellenfelekkel való edzés.
Kapcsolódó: többfordulós RL-modellek
A Big 2 egy hasznos, kontrollált környezetet kínál a mély RL kutatásához, különösen az olyan kihívások esetén, mint a nem tökéletes információ, a többjátékos interakció, a késleltetett jutalmak és a változó akciókészletek. A Stanford és a Google Robotics kutatói által publikált tanulmány szerint a PPO algoritmus 200 MB helyett 2 MB memóriával is képes dolgozni, miközben a SLAM pontossága változatlan marad.
Kapcsolódó: önkritikus AI-modellek