ÉlőUtoljára: 1 perceMa: 24
Kutatásfrissítve: 10:50

Interaktív IRL-t fejlesztettek ki a kutatók: kétlépcsős optimalizációval tanul a modell

Az új megközelítés lehetővé teszi, hogy a tanuló aktívan kommunikáljon a szakértővel, nem csak passzívan megfigyelje annak demonstrációit, ezzel áthidalva a korábbi IRL-rendszerek korlátait.

Interaktív IRL-t fejlesztettek ki a kutatók: kétlépcsős optimalizációval tanul a modell
Fotó: Fotó: National Cancer Institute / Unsplash
forrás: ArXiv ML·AI Forradalom szerk.·
Megosztás

Interaktív inverz megerősítéses tanulási (IIRL) módszert dolgoztak ki kutatók, amely a hagyományos IRL-lel ellentétben nem csak passzív megfigyelésen alapul, hanem aktív interakciót tesz lehetővé a szakértő és a tanuló között — írja az ArXiv-en megjelent tanulmány.

A hagyományos inverz megerősítéses tanulás (IRL) során egy jutalomfüggvényt és egy ahhoz tartozó viselkedési stratégiát tanul meg a rendszer, amely a szakértői demonstrációkhoz a legjobban illeszkedik. Ez a megközelítés azonban korlátozott az interaktív környezetekben, ahol a tanulónak folyamatosan kommunikálnia kell a szakértővel, és az interakciókból kell kikövetkeztetnie a szakértő jutalomfüggvényét.

A kutatók az IIRL-t egy sztochasztikus, kétlépcsős optimalizációs problémaként fogalmazták meg. Az alsó szinten a rendszer a szakértő viselkedését magyarázó jutalomfüggvényt tanulja meg, míg a felső szinten egy olyan stratégiát sajátít el, amellyel interakcióba léphet a szakértővel. Ehhez egy úgynevezett „double-loop” algoritmust fejlesztettek ki, amelyet Bi-level Interactive Scenarios I (BISI) néven ismerünk.

A Bi-level Interactive Scenarios I algoritmus célja, hogy a tanuló ne csak lemásolja a szakértőt, hanem megértse annak motivációit és a mögöttes jutalomstruktúrát, így hatékonyabban tudjon alkalmazkodni a változó interaktív forgatókönyvekhez. Ez a megközelítés új lehetőségeket nyit meg a robotika, az ember-gép interakció és más területek számára, ahol a valós idejű, adaptív tanulás kulcsfontosságú. A tanulmány egyelőre preprint formában érhető el az ArXiv 2605.08131v1 azonosítóval.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom