Nemotron-Labs 14B modell

A NVIDIA új Nemotron-Labs Diffusion nyelvi modellje (DLM) a hagyományos, tokenenkénti generálástól eltérően párhuzamosan állít elő több tokent, majd iteratívan finomítja azokat. Ez a megközelítés jelentős futásidejű teljesítményelőnyöket kínál, és jobban kihasználja a modern GPU-k számítási kapacitását — írja a Hugging Face.

A Nemotron-Labs Diffusion családba 3B, 8B és 14B paraméteres szöveges modellek tartoznak, amelyek kereskedelmi célra is felhasználható NVIDIA Nemotron Open Model License alatt érhetők el. Emellett egy 8B paraméteres látás-nyelvi modell (VLM) is megjelent, kutatási célokra, NVIDIA Source Code License alatt. A NVIDIA alapmodelleket és utasításra finomhangolt chat-változatokat is kiadott, a betanítási kóddal együtt a NVIDIA Megatron Bridge keretrendszeren keresztül.

A modell három generálási módot támogat: autoregresszív, diffúziós és ön-spekulációs. Az autoregresszív mód a megszokott balról jobbra haladó LLM-ként működik, míg a diffúziós mód blokkonként, fokozatosan generálja a tokeneket. Az ön-spekulációs mód a diffúziót használja több jelölt token vázlatának elkészítésére, majd autoregresszív dekódolással ellenőrzi azokat, ötvözve a sebességet és a megbízhatóságot.

A Nemotron-Labs Diffusion 8B modell átlagosan 1,2%-kal jobb pontosságot ért el a Qwen3 8B-hez képest. A token/forward pass (TPF) sebességmérés szerint a diffúziós mód 2,6-szor magasabb TPF-et produkált, az ön-spekuláció pedig lineárisan 6-szoros, kvadratikusan 6,4-szeres gyorsulást hozott, hasonló pontosság mellett. A Hugging Face szerint az ön-spekulációs mód a B200-as hardveren 865 tokent/másodperc sebességet ért el, ami négyszerese az autoregresszív alapvonalnak.

A diffúziós nyelvi modellek korábban alacsonyabb pontosságúak voltak, nehezebben betaníthatók és korlátozottan kompatibilisek a KV-gyorsítótárazással. Az Efficient-DLM kutatás azonban megmutatta, hogy előre betanított AR modellek diffúziós nyelvi modellekké alakíthatók továbbképzéssel és a figyelmi mechanizmus blokk-alapú megközelítésre való módosításával. A Nemotron-Labs Diffusion erre az elvre épül, meglévő AR modellhez adva diffúziós képességeket. A modellt 1,3 billió tokenen tanították a NVIDIA Nemotron Pretraining adathalmazokból, majd további 45 milliárd tokenen finomhangolták a NVIDIA Nemotron Post-training adathalmazok felhasználásával.

A diffúziós modelleket nem csak szöveggenerálásra alkalmazzák. A PLAID például egy multimodális generatív modell, amely egyszerre hoz létre fehérje 1D szekvenciát és 3D struktúrát, fehérjehajtogatási modellek látens terének megtanulásával — írja a Berkeley AI Research. Emellett a videógenerálásban is egyre nagyobb szerepet kapnak, ahol a képkockák közötti időbeli konzisztencia megőrzése jelenti a legnagyobb kihívást, amihez több világismeret kódolása szükséges a modellbe — mutat rá Lilian Weng blogja.

A Nemotron-Labs Diffusion modellek telepítése és következtetése hamarosan támogatott lesz a SGLang fő ágában. Jelenleg a GitHub-on keresztül érhető el a következtetési támogatás, és a fejlesztők egyetlen konfigurációs sorral válthatnak a három generálási mód között.