LatentRouter: Előre jelzi, melyik multimodális AI modell adja a legjobb választ
A multimodális nagy nyelvi modellek (MLLM-ek) különböző feladatokban, például OCR-ben vagy diagramértelmezésben eltérő erősségeket mutatnak, a LatentRouter pedig a lekérdezés előtt választja ki a legmegfelelőbbet.

Új módszerrel optimalizálhatják a multimodális nagy nyelvi modellek (MLLM-ek) használatát a kutatók: a LatentRouter nevű rendszer előrejelzi, melyik modell a legalkalmasabb egy adott kép-kérdés lekérdezésre — írja az arXiv-on megjelent tanulmány.
A különböző MLLM-ek nem egyformán teljesítenek minden téren. Vannak, amelyek az optikai karakterfelismerésben (OCR), mások a diagramok értelmezésében, a térbeli érvelésben vagy a vizuális kérdés-válaszadásban (VQA) jeleskednek, miközben költségeik és késleltetésük is eltérő.
A multimodális modellek kiválasztásának művészete
A LatentRouter célja, hogy a lekérdezés elküldése előtt párosítsa az input multimodális igényeit a jelölt modellek képességeivel. A rendszer a modellválasztást egy úgynevezett "ellenkező tényeken alapuló multimodális hasznosság" (counterfactual multimodal utility) előrejelzéseként fogalmazza meg.
Egy kép-kérdés lekérdezés esetén a rendszer tanult multimodális útválasztási kapszulákat von ki, minden jelölt MLLM-et egy modellképesség-tokennel reprezentál, majd látens kommunikációt végez ezek között az állapotok között.
A döntés útjai
Ez a folyamat becslést ad arra, hogyan teljesítene az egyes modellek, ha kiválasztanák őket. Egy elosztási kimeneti fej (distributional outcome head) előrejelzi a modellspecifikus ellenkező tényeken alapuló minőséget, míg egy korlátozott kapszula korrekció finomítja a szoros döntéseket, megakadályozva, hogy a maradék jelek dominálják az előrejelzést. A tanulmány 2605.11301v1 azonosítóval érhető el az arXiv oldalán, 2024. március 15-én került fel.