Frissítve: 9 perce·Ma: 57
Modellek & LLM
AI által generált szöveg

A Dynin-Omni 19 multimodális tesztet teljesít

A Dynin-Omni modell 87.6 pontot ért el a GSM8K teljesítményteszten

A Dynin-Omni 19 multimodális tesztet teljesít
Fotó: Enchanted Tools / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A Dynin-Omni, a 2026. április 3-án publikált arXiv cikkben bemutatott első maskált-diffúzió alapú omnimodális modell, 19 multimodális tesztet teljesített. A GSM8K feladatban 87,6 pontot ért el, a MME-P 1733,6 pontot, a VideoMME 61,4 pontot, a GenEval 0,87 pontot, és a WER 2,1-et mutatott.

A modell egyetlen, megosztott diszkrét token térben fut, így szöveget, képet, hangot és videót is egyidejűleg tud feldolgozni. A maskált diffúziós megközelítés lehetővé teszi a bidirekcionális kontextus alapján történő iteratív finomítás, ami a korábbi autoregresszív és kompozíciós megoldásoknál előnyösebb.

A Dynin-Omni több szakaszos tanítási stratégiát alkalmaz, amely során moduláris módon bővül a multimodális képesség, majd omnimodális igazítás révén egyesülnek a különböző adatformátumok. Ez a folyamat a modell egységes architektúrájának fenntartását segíti.

A 19 teszt lefedi a nyelvi érvelést, a kép generálást és szerkesztést, a videóértékelést, valamint a hangfelismerést és szintézist. A Dynin-Omni eredményei azt mutatják, hogy a maskált diffúziós alapú megközelítés képes magas szintű teljesítményt nyújtani mindhárom fő multimodális területen.

A következő lépés a modell valós idejű alkalmazási lehetőségeinek tesztelése, különösen a valós idejű videó- és hangfeldolgozás terén.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom