Kutatás2026. máj. 31.frissítve: 06:50

Big 2 kártyajátékban tesztelték az AI-t: PPO algoritmus bizonyult a legjobbnak

A Big 2 kártyajátékban tesztelt AI-ügynökök közül a PPO algoritmus bizonyult a leghatékonyabbnak a rejtett információk és ritka jutalmak kezelésében.

Fotó: Esteban López / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 31.

Megosztás

A rejtett információkkal, ritka jutalmakkal és kiszámíthatatlan ellenfelekkel szemben működő AI-ügynökök képességeit vizsgálták a Big 2 nevű, négyjátékos kártyajátékban. A kutatók egy új, önmagát tanító (self-play) reinforcement learning (RL) keretrendszert fejlesztettek ki, amely lehetővé teszi a különböző politikai-gradiens és értékbecslő ügynökök összehasonlítását.

Az egységes környezet, bemeneti reprezentáció, képzési költségvetés és értékelési protokoll mellett a PPO (Proximal Policy Optimization) algoritmus felülmúlta a Monte Carlo Q-approximációt, a SARSA-t és a Q-learninget. Ezek az algoritmusok véletlenszerű, mohó és heuristikus ellenfelekkel szemben mérték össze teljesítményüket a Big 2 játékban.

Kapcsolódó: öntanuló AI-modellek

A kutatás eredményei szerint a mérsékelt entrópiaszabályozás javítja a PPO teljesítményét, mivel megakadályozza, hogy a politika túlzottan determinisztikussá váljon. Emellett a jelenlegi politika önmagát tanító módszere erősebb, véges költségvetésű tananyagot biztosít, mint a korábbi checkpointok vagy a rögzített ellenfelekkel való edzés.

Kapcsolódó: többfordulós RL-modellek

A Big 2 egy hasznos, kontrollált környezetet kínál a mély RL kutatásához, különösen az olyan kihívások esetén, mint a nem tökéletes információ, a többjátékos interakció, a késleltetett jutalmak és a változó akciókészletek. A Stanford és a Google Robotics kutatói által publikált tanulmány szerint a PPO algoritmus 200 MB helyett 2 MB memóriával is képes dolgozni, miközben a SLAM pontossága változatlan marad.

Kapcsolódó: önkritikus AI-modellek

tetszett a cikk? oszd meg →

Megosztás