Modellek & LLM2026. ápr. 3.

A Dynin-Omni 19 multimodális tesztet teljesít

A Dynin-Omni modell 87.6 pontot ért el a GSM8K teljesítményteszten

Fotó: Revendo / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 3.

Megosztás

A Dynin-Omni, a 2026. április 3-án publikált arXiv cikkben bemutatott első maskált-diffúzió alapú omnimodális modell, 19 multimodális tesztet teljesített. A GSM8K feladatban 87,6 pontot ért el, a MME-P 1733,6 pontot, a VideoMME 61,4 pontot, a GenEval 0,87 pontot, és a WER 2,1-et mutatott.

A modell egyetlen, megosztott diszkrét token térben fut, így szöveget, képet, hangot és videót is egyidejűleg tud feldolgozni. A maskált diffúziós megközelítés lehetővé teszi a bidirekcionális kontextus alapján történő iteratív finomítás, ami a korábbi autoregresszív és kompozíciós megoldásoknál előnyösebb.

A Dynin-Omni több szakaszos tanítási stratégiát alkalmaz, amely során moduláris módon bővül a multimodális képesség, majd omnimodális igazítás révén egyesülnek a különböző adatformátumok. Ez a folyamat a modell egységes architektúrájának fenntartását segíti.

A 19 teszt lefedi a nyelvi érvelést, a kép generálást és szerkesztést, a videóértékelést, valamint a hangfelismerést és szintézist. A Dynin-Omni eredményei azt mutatják, hogy a maskált diffúziós alapú megközelítés képes magas szintű teljesítményt nyújtani mindhárom fő multimodális területen.

A következő lépés a modell valós idejű alkalmazási lehetőségeinek tesztelése, különösen a valós idejű videó- és hangfeldolgozás terén.

tetszett a cikk? oszd meg →

Megosztás