Frissítve: 2 órája·Ma: 32
Kutatás
AI által generált szöveg

Megbízhatóbbá teszi a világmodelleket a PROWL — ritka hibákat is kijavít

A diffúzió alapú világmodellek eddig megbízhatatlanok voltak a ritka, de kritikus interakciókban, ám a PROWL aktívan keresi és kijavítja ezeket a hibákat.

Megbízhatóbbá teszi a világmodelleket a PROWL — ritka hibákat is kijavít
Fotó: Maxence Pira / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

A modern, cselekvés-vezérelt videó alapú világmodellek valósághűen szimulálják a rövid távú vizuális eseményeket, ám megbízhatatlanok a ritka, interakció-kritikus átmenetek kezelésében — írják az arXiv-on publikáló kutatók.

Ezek a ritka, de nagy hatású helyzetek kulcsfontosságúak a tervezés és a viselkedéspolitika szempontjából, de a passzív adatokból történő betanítás során alulreprezentáltak. A robusztusság javításához ezért aktívan fel kell tárni a modellhibákat, nem pedig a természetes előfordulásukra várni.

A PROWL módszer lényege

A PROWL módszer egy KL-korlátozott ellenséges tanítási ciklust vezet be, ahol egy viselkedési politika arra van kiképezve, hogy feltárja a diffúzió alapú világmodell magas hibájú trajektóriáit, miközben közel marad a viselkedési eloszláshoz — magyarázzák a kutatók.

A világmodellt folyamatosan finomhangolják ezeken az ellenségesen felfedezett trajektóriákon. Ez az ellenséges tanítási ciklus a ritka hibákat stabil, az eloszláshoz közeli betanítási jellé alakítja, anélkül, hogy a modell a megszokott adateloszlásból kizökkenne.

A PROWL biztosítja, hogy a modell fejlődésével a fel nem oldott gyengeségekre nehezedő nyomás fennmaradjon, ezzel folyamatosan javítva a rendszer megbízhatóságát. A kutatás az arXiv:2605.18803v1 számon érhető el előnyomtatott formában.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom