A Dynin-Omni 19 multimodális tesztet teljesít
A Dynin-Omni modell 87.6 pontot ért el a GSM8K teljesítményteszten

A Dynin-Omni, a 2026. április 3-án publikált arXiv cikkben bemutatott első maskált-diffúzió alapú omnimodális modell, 19 multimodális tesztet teljesített. A GSM8K feladatban 87,6 pontot ért el, a MME-P 1733,6 pontot, a VideoMME 61,4 pontot, a GenEval 0,87 pontot, és a WER 2,1-et mutatott.
A modell egyetlen, megosztott diszkrét token térben fut, így szöveget, képet, hangot és videót is egyidejűleg tud feldolgozni. A maskált diffúziós megközelítés lehetővé teszi a bidirekcionális kontextus alapján történő iteratív finomítás, ami a korábbi autoregresszív és kompozíciós megoldásoknál előnyösebb.
A Dynin-Omni több szakaszos tanítási stratégiát alkalmaz, amely során moduláris módon bővül a multimodális képesség, majd omnimodális igazítás révén egyesülnek a különböző adatformátumok. Ez a folyamat a modell egységes architektúrájának fenntartását segíti.
A 19 teszt lefedi a nyelvi érvelést, a kép generálást és szerkesztést, a videóértékelést, valamint a hangfelismerést és szintézist. A Dynin-Omni eredményei azt mutatják, hogy a maskált diffúziós alapú megközelítés képes magas szintű teljesítményt nyújtani mindhárom fő multimodális területen.
A következő lépés a modell valós idejű alkalmazási lehetőségeinek tesztelése, különösen a valós idejű videó- és hangfeldolgozás terén.