Nvidia 288 GPU-val új rekordokat állít fel az MLPerf teszten
Az Nvidia 2,7-szörös teljesítménynövekedést ért el a DeepSeek-R1 modellben szoftveroptimalizációkkal, a hardver változatlanul hagyása mellett.

Nvidia 288 GPU-val új rekordokat állít fel az MLPerf teszten, a GB300-NVL72 Blackwell Ultra rendszeren 2,49 millió token/másodpercet ért el a DeepSeek-R1 offline szcenárióban. A teljesítmény 2,7-szoros növekedést jelent a korábbi, ugyanazon hardveren futó bejegyzéshez képest, a Nebius által fejlesztett szoftveroptimalizációk révén.
A teljesítményteszt új multimodális és videó modelleket is tartalmaz, mint a Qwen3-VL-235B és a WAN-2.2-T2V, de Nvidia csak ezeken a modelleken mutatta be teljesítményét. A 288 GPU-os skálázás a Quantum‑X800 InfiniBand hálózaton keresztül valósult meg, így a vállalat a legnagyobb MLPerf bejegyzést hozta létre eddig.
Az optimizációk a token termelés költségét 60 % -kal csökkentették: a Dynamo nyílt forráskódú keretrendszer szétválasztja a bemenet feldolgozását és a token generálását, míg a Wide Expert Parallel a MoE modellekhez terjeszti a szakértői súlyokat több GPU közötti elosztásával. A Multi‑Token Prediction több token generálását teszi lehetővé egyszerre, csökkentve a várakozási időt.
AMD a MI355X CDNA 4 architektúrával 94 GPU‑val 1 millió token/másodpercet ért el a Llama 2 70B és GPT‑OSS‑120B modelleken. Egyetlen node, nyolc GPU esetén a MI355X 119 % –t jelent a Nvidia B200-nál az interaktív szcenárióban, de nem futott DeepSeek‑R1‑en. Intel ezzel szemben a workstation és edge szegmensre fókuszál, az Arc Pro B70 és B65 GPU-kat Xeon 6 processzorokkal kombinálva.
Mi lesz a következő lépés? Nvidia a Blackwell Ultra platformon tovább finomítja a szoftvert, miközben AMD a MI355X generációs fejlesztéseit terjeszti. A verseny a hardver és a szoftver optimalizációk egyensúlyán lesz a döntő, a legnagyobb skálázhatóság és a legmagasabb token throughput között.