Új módszerrel gyorsulhat a multimodális MoE LLM-ek következtetése
A Mixture-of-Experts Multimodális Nagy Nyelvi Modellek (MoE MLLM-ek) eddig jelentős hatékonysági problémákkal küzdöttek a következtetés során, de egy új módszer orvosolhatja a problémát.

A Mixture-of-Experts Multimodális Nagy Nyelvi Modellek (MoE MLLM-ek) Expert Parallelism (EP) következtetési fázisában jelentős szűk keresztmetszetet okoz az úgynevezett straggler effect — írja az arXiv-on megjelent tanulmány.
A probléma különösen élesen jelentkezik a multimodális környezetben, ahol a token-szám alapú terheléselosztási módszerek nem képesek kezelni két kulcsfontosságú kihívást. Az egyik az információ heterogenitása, ahol a redundáns vizuális tokeneket ugyanúgy kezelik, mint a szemantikailag kritikusakat. A másik a modalitás dinamikája, ahol a feladatok közötti változó vizuális-szöveges arányok erőforrás-rosszallokációhoz vezetnek.
A multimodális modellek hatékonyságának kulcsa
Ezekre a problémákra kínál megoldást a MACS (Modality-Aware Capacity skálázás), egy új, tréningmentes következtetési keretrendszer. A MACS két fő mechanizmust alkalmaz a hatékonyság növelésére.
Az egyik az Entropy-Weighted Load mechanizmus, amely a vizuális tokenek szemantikai értékét számszerűsíti, ezzel kezelve az információ heterogenitását. A másik a Dynamic Modality-Adaptive Capacity mechanizmus, amely valós idejű modális összetétel alapján osztja el az expert erőforrásokat, optimalizálva a rendszer terhelését.
A MACS keretrendszer előnyei
A MACS keretrendszer célja, hogy jelentősen javítsa a multimodális MoE LLM-ek következtetési sebességét és erőforrás-felhasználását, különösen a vizuális adatok feldolgozásánál. A kutatás az arXiv:2605.05225v1 számon jelent meg, 2024. május 15-én.