Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

LatentRouter: Előre jelzi, melyik multimodális AI modell adja a legjobb választ

A multimodális nagy nyelvi modellek (MLLM-ek) különböző feladatokban, például OCR-ben vagy diagramértelmezésben eltérő erősségeket mutatnak, a LatentRouter pedig a lekérdezés előtt választja ki a legmegfelelőbbet.

LatentRouter: Előre jelzi, melyik multimodális AI modell adja a legjobb választ
Fotó: Pi Supply / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Új módszerrel optimalizálhatják a multimodális nagy nyelvi modellek (MLLM-ek) használatát a kutatók: a LatentRouter nevű rendszer előrejelzi, melyik modell a legalkalmasabb egy adott kép-kérdés lekérdezésre — írja az arXiv-on megjelent tanulmány.

A különböző MLLM-ek nem egyformán teljesítenek minden téren. Vannak, amelyek az optikai karakterfelismerésben (OCR), mások a diagramok értelmezésében, a térbeli érvelésben vagy a vizuális kérdés-válaszadásban (VQA) jeleskednek, miközben költségeik és késleltetésük is eltérő.

A multimodális modellek kiválasztásának művészete

A LatentRouter célja, hogy a lekérdezés elküldése előtt párosítsa az input multimodális igényeit a jelölt modellek képességeivel. A rendszer a modellválasztást egy úgynevezett "ellenkező tényeken alapuló multimodális hasznosság" (counterfactual multimodal utility) előrejelzéseként fogalmazza meg.

Egy kép-kérdés lekérdezés esetén a rendszer tanult multimodális útválasztási kapszulákat von ki, minden jelölt MLLM-et egy modellképesség-tokennel reprezentál, majd látens kommunikációt végez ezek között az állapotok között.

A döntés útjai

Ez a folyamat becslést ad arra, hogyan teljesítene az egyes modellek, ha kiválasztanák őket. Egy elosztási kimeneti fej (distributional outcome head) előrejelzi a modellspecifikus ellenkező tényeken alapuló minőséget, míg egy korlátozott kapszula korrekció finomítja a szoros döntéseket, megakadályozva, hogy a maradék jelek dominálják az előrejelzést. A tanulmány 2605.11301v1 azonosítóval érhető el az arXiv oldalán, 2024. március 15-én került fel.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom