Interaktív IRL-t fejlesztettek ki a kutatók: kétlépcsős optimalizációval tanul a modell
Az új megközelítés lehetővé teszi, hogy a tanuló aktívan kommunikáljon a szakértővel, nem csak passzívan megfigyelje annak demonstrációit, ezzel áthidalva a korábbi IRL-rendszerek korlátait.

Interaktív inverz megerősítéses tanulási (IIRL) módszert dolgoztak ki kutatók, amely a hagyományos IRL-lel ellentétben nem csak passzív megfigyelésen alapul, hanem aktív interakciót tesz lehetővé a szakértő és a tanuló között — írja az ArXiv-en megjelent tanulmány.
A hagyományos inverz megerősítéses tanulás (IRL) során egy jutalomfüggvényt és egy ahhoz tartozó viselkedési stratégiát tanul meg a rendszer, amely a szakértői demonstrációkhoz a legjobban illeszkedik. Ez a megközelítés azonban korlátozott az interaktív környezetekben, ahol a tanulónak folyamatosan kommunikálnia kell a szakértővel, és az interakciókból kell kikövetkeztetnie a szakértő jutalomfüggvényét.
A kutatók az IIRL-t egy sztochasztikus, kétlépcsős optimalizációs problémaként fogalmazták meg. Az alsó szinten a rendszer a szakértő viselkedését magyarázó jutalomfüggvényt tanulja meg, míg a felső szinten egy olyan stratégiát sajátít el, amellyel interakcióba léphet a szakértővel. Ehhez egy úgynevezett „double-loop” algoritmust fejlesztettek ki, amelyet Bi-level Interactive Scenarios I (BISI) néven ismerünk.
A Bi-level Interactive Scenarios I algoritmus célja, hogy a tanuló ne csak lemásolja a szakértőt, hanem megértse annak motivációit és a mögöttes jutalomstruktúrát, így hatékonyabban tudjon alkalmazkodni a változó interaktív forgatókönyvekhez. Ez a megközelítés új lehetőségeket nyit meg a robotika, az ember-gép interakció és más területek számára, ahol a valós idejű, adaptív tanulás kulcsfontosságú. A tanulmány egyelőre preprint formában érhető el az ArXiv 2605.08131v1 azonosítóval.