Rejtett koalíciókat azonosít a többügynökös AI-ban az új spektrális diagnosztika
A módszer a belső neurális reprezentációkból épít páronkénti kölcsönös információs gráfot, majd spektrális partícionálással azonosítja a legfontosabb koalíciós határokat.

Rejtett koalíciókat képes felismerni a többügynökös AI-rendszerekben egy új spektrális diagnosztikai eljárás, még mielőtt azok viselkedésben is megnyilvánulnának — írja az ArXiv-en megjelent tanulmány.
Az interaktív AI-ügynökök csoportjai gyakran alkotnak koalíciókat, amelyek kritikusak az AI biztonsága és összehangolása szempontjából. A kutatók megfigyelték, hogy a jelentős koalíciók a belső reprezentációk szintjén alakulhatnak ki, még a nyilvánvaló viselkedésbeli változások előtt.
Belső állapotok elemzése
A kutatók egy gyakorlati módszert vezettek be a koalíciós struktúra észlelésére a többügynökös rendszerek belső neurális reprezentációiból. Az eljárás az ügynökök rejtett állapotai alapján páronkénti kölcsönös információs gráfot hoz létre, majd spektrális partícionálást alkalmaz a legkiemelkedőbb koalíciós határ azonosítására.
Koalíciók határainak feltárása
A módszert két területen is validálták. Egyrészt többügynökös megerősítéses tanulási környezetekben sikeresen azonosította a programozott hierarchikus és dinamikus koalíciós struktúrákat, és helyesen elutasította a hamis pozitív eredményeket. A technika ígéretesnek tűnik az AI-rendszerek belső működésének jobb megértésében, és a Google által támogatott kutatás 2024-ben folytatódik.