Kutatás2026. máj. 14.frissítve: 11:50

LatentRouter: Előre jelzi, melyik multimodális AI modell adja a legjobb választ

A multimodális nagy nyelvi modellek (MLLM-ek) különböző feladatokban, például OCR-ben vagy diagramértelmezésben eltérő erősségeket mutatnak, a LatentRouter pedig a lekérdezés előtt választja ki a legmegfelelőbbet.

Fotó: Pi Supply / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 14.

Megosztás

Új módszerrel optimalizálhatják a multimodális nagy nyelvi modellek (MLLM-ek) használatát a kutatók: a LatentRouter nevű rendszer előrejelzi, melyik modell a legalkalmasabb egy adott kép-kérdés lekérdezésre — írja az arXiv-on megjelent tanulmány.

A különböző MLLM-ek nem egyformán teljesítenek minden téren. Vannak, amelyek az optikai karakterfelismerésben (OCR), mások a diagramok értelmezésében, a térbeli érvelésben vagy a vizuális kérdés-válaszadásban (VQA) jeleskednek, miközben költségeik és késleltetésük is eltérő.

A multimodális modellek kiválasztásának művészete

A LatentRouter célja, hogy a lekérdezés elküldése előtt párosítsa az input multimodális igényeit a jelölt modellek képességeivel. A rendszer a modellválasztást egy úgynevezett "ellenkező tényeken alapuló multimodális hasznosság" (counterfactual multimodal utility) előrejelzéseként fogalmazza meg.

Egy kép-kérdés lekérdezés esetén a rendszer tanult multimodális útválasztási kapszulákat von ki, minden jelölt MLLM-et egy modellképesség-tokennel reprezentál, majd látens kommunikációt végez ezek között az állapotok között.

A döntés útjai

Ez a folyamat becslést ad arra, hogyan teljesítene az egyes modellek, ha kiválasztanák őket. Egy elosztási kimeneti fej (distributional outcome head) előrejelzi a modellspecifikus ellenkező tényeken alapuló minőséget, míg egy korlátozott kapszula korrekció finomítja a szoros döntéseket, megakadályozva, hogy a maradék jelek dominálják az előrejelzést. A tanulmány 2605.11301v1 azonosítóval érhető el az arXiv oldalán, 2024. március 15-én került fel.

tetszett a cikk? oszd meg →

Megosztás