Frissítve: 3 órája·Ma: 1
Modellek & LLM
AI által generált szöveg

Nemotron-Labs 14B modell

A NVIDIA Nemotron-Labs Diffusion modellje akár 6,4-szer gyorsabban működhet, mint a hagyományos modellek. A modell a Hugging Face oldalán jelent meg.

Nemotron-Labs 14B modell
Fotó: Christian Wiediger / Unsplash
Forrás: Hugging FaceSzerző: AI Forradalom szerk.
Megosztás

A NVIDIA új Nemotron-Labs Diffusion nyelvi modellje (DLM) a hagyományos, tokenenkénti generálástól eltérően párhuzamosan állít elő több tokent, majd iteratívan finomítja azokat. Ez a megközelítés jelentős futásidejű teljesítményelőnyöket kínál, és jobban kihasználja a modern GPU-k számítási kapacitását — írja a Hugging Face.

A Nemotron-Labs Diffusion családba 3B, 8B és 14B paraméteres szöveges modellek tartoznak, amelyek kereskedelmi célra is felhasználható NVIDIA Nemotron Open Model License alatt érhetők el. Emellett egy 8B paraméteres látás-nyelvi modell (VLM) is megjelent, kutatási célokra, NVIDIA Source Code License alatt. A NVIDIA alapmodelleket és utasításra finomhangolt chat-változatokat is kiadott, a betanítási kóddal együtt a NVIDIA Megatron Bridge keretrendszeren keresztül.

A modell három generálási módot támogat: autoregresszív, diffúziós és ön-spekulációs. Az autoregresszív mód a megszokott balról jobbra haladó LLM-ként működik, míg a diffúziós mód blokkonként, fokozatosan generálja a tokeneket. Az ön-spekulációs mód a diffúziót használja több jelölt token vázlatának elkészítésére, majd autoregresszív dekódolással ellenőrzi azokat, ötvözve a sebességet és a megbízhatóságot.

A Nemotron-Labs Diffusion 8B modell átlagosan 1,2%-kal jobb pontosságot ért el a Qwen3 8B-hez képest. A token/forward pass (TPF) sebességmérés szerint a diffúziós mód 2,6-szor magasabb TPF-et produkált, az ön-spekuláció pedig lineárisan 6-szoros, kvadratikusan 6,4-szeres gyorsulást hozott, hasonló pontosság mellett. A Hugging Face szerint az ön-spekulációs mód a B200-as hardveren 865 tokent/másodperc sebességet ért el, ami négyszerese az autoregresszív alapvonalnak.

A diffúziós nyelvi modellek korábban alacsonyabb pontosságúak voltak, nehezebben betaníthatók és korlátozottan kompatibilisek a KV-gyorsítótárazással. Az Efficient-DLM kutatás azonban megmutatta, hogy előre betanított AR modellek diffúziós nyelvi modellekké alakíthatók továbbképzéssel és a figyelmi mechanizmus blokk-alapú megközelítésre való módosításával. A Nemotron-Labs Diffusion erre az elvre épül, meglévő AR modellhez adva diffúziós képességeket. A modellt 1,3 billió tokenen tanították a NVIDIA Nemotron Pretraining adathalmazokból, majd további 45 milliárd tokenen finomhangolták a NVIDIA Nemotron Post-training adathalmazok felhasználásával.

A diffúziós modelleket nem csak szöveggenerálásra alkalmazzák. A PLAID például egy multimodális generatív modell, amely egyszerre hoz létre fehérje 1D szekvenciát és 3D struktúrát, fehérjehajtogatási modellek látens terének megtanulásával — írja a Berkeley AI Research. Emellett a videógenerálásban is egyre nagyobb szerepet kapnak, ahol a képkockák közötti időbeli konzisztencia megőrzése jelenti a legnagyobb kihívást, amihez több világismeret kódolása szükséges a modellbe — mutat rá Lilian Weng blogja.

A Nemotron-Labs Diffusion modellek telepítése és következtetése hamarosan támogatott lesz a SGLang fő ágában. Jelenleg a GitHub-on keresztül érhető el a következtetési támogatás, és a fejlesztők egyetlen konfigurációs sorral válthatnak a három generálási mód között.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom