PRISM: Új módszerrel javul a robotok percepciója, 54,9%-kal jobb kódgenerálás

A PRISM keretrendszer nem passzívan fogadja el a VLM leírását, hanem a LLM kritikusan értékeli azt, célzott kérdésekkel vizsgálja a VLM-et, majd tömör kép-leírást szintetizál.

Fotó: Possessed Photography / Unsplash

Forrás: ArXiv AI•Szerző: AI Forradalom szerk.•2026. május 10.

Megosztás

A nyelvi modelleken (LLM) alapuló, megtestesült ágensek szöveges környezetből komplex, multimodális beállításokba skálázása továbbra is komoly kihívás. A legújabb kutatások a percepció, érvelés és döntéshozatal közötti rést azonosítják az önálló vizuális nyelvi modellek (VLM) esetében, amelyek gyakran figyelmen kívül hagyják a feladatkritikus információkat — írja az ArXiv-en megjelent tanulmány.

Ezt a problémát orvosolja a PRISM, egy új rendszer, amely dinamikus kérdés-válasz (DQA) folyamaton keresztül szorosan összekapcsolja a percepciót (VLM) és a döntéshozatalt (LLM). Ez a zárt hurkú interakció éles, feladatvezérelt megértést eredményez a jelenetről. A PRISM jelentősen felülmúlja a jelenlegi, kép-alapú modelleket az ALFWorld és Room-to-Room (R2R) benchmarkokon.

A PRISM áttörése

Az új módszer akár 54,9%-kal javítja az alap teljesítményt a kódgenerálásban (HumanEval), és 9,1–15,3%-kal felülmúlja a legerősebb mintavételi alapvonalakat. Matematikai érvelésben (MATH500) akár 8,8%-os javulást ér el. Különösen figyelemre méltó, hogy Qwen2.5-7B modellel 87,8%-ot ér el a HumanEval, és 78,4%-ot a MATH500 teszteken.

A jövőkép

Az interaktív, célvezérelt percepciós folyamat szisztematikus és jelentős nyereséget eredményez, ami azt mutatja, hogy a PRISM teljesen autonóm módon képes optimalizálni a robotok környezetérzékelését. A Qwen2.5-7B modell 2024-ben várhatóan továbbfejlesztésre kerül a PRISM rendszerrel.