Döntési kapacitásküszöb okozhatja az öntanuló AI-modellek összeomlását
A jelenség pókerjátékokban, mátrixjátékokban és kockajátékokban is megfigyelhető, több tanulási algoritmus esetében is hasonló eredményt mutat.

A döntési kapacitás egy bizonyos küszöbértéke határozza meg, hogy az öntanuló megerősítéses tanulási (reinforcement learning) ágensek összeomlanak-e aszimmetrikus szabályzavarok hatására — mutatja egy új ArXiv-tanulmány.
A kutatók szerint, ha a pozitív elérésű, függő döntések mindegyikét megszüntetik, a gyors konvergenciához vezet egy determinisztikus kihasználási attraktorhoz, ami közel maximális veszteséggel járó fix pontot jelent. Ezzel szemben, ha akár csak egyetlen ilyen döntési pontot is megőriznek, a megakadályozza az összeomlást.
A szabályzavaron túl
A mechanizmus a korlátozott ko-adaptáció, nem pedig maga a zavar. Ezt egy rögzített alapvonal és egy fix ellenféllel történő kontroll is megerősítette. A jelenség időzítés-független, az akciók visszaállítása után teljesen visszafordítható, és a függvényapproximációval intenzívebbé válik.
A döntési kapacitás határa
Ezek az eredmények éles küszöböt állapítanak meg a nulla elérés-súlyozott függő akciókapacitásnál, ahol a súlyosság folyamatosan skálázódik az elérés-súlyozott kapacitással a tesztelt területeken. A kutatók az ArXiv tanulmányban megemlítik, hogy a következő lépés a döntési kapacitás modellezése lesz, 2024-ben várható további eredmények.