A Nvidia Mission Control hidalja át a GB200-as szupergépek és az AI-ütemezés szakadékát
Az új szoftveres megoldás a NVIDIA Grace Blackwell NVL72 rendszerek vezérlését teszi lehetővé, integrálva a Slurm és a Run:ai platformokat.

A NVIDIA Mission Control rack-méretű vezérlősíkot biztosít a Grace Blackwell NVL72 rendszerekhez, kezelve a hatalmas GPU-hálózatokat és a nagy sávszélességű hálózati egységeket — írja a NVIDIA Developer blogja. Ez a szoftveres megoldás kulcsfontosságú az AI-munkaterhelések zökkenőmentes futtatásához a rack-méretű szuperkomputereken.
A GB200 NVL72 és GB300 NVL72 rendszerek, amelyek a Blackwell architektúrára épülnek, 18 szorosan összekapcsolt számítási tálcával érkeznek. Az AI-architektek és HPC-platformüzemeltetők számára a legnagyobb kihívást a jelenti, hogy ezt az infrastruktúrát biztonságos, nagy teljesítményű és könnyen használható erőforrássá alakítsák a végfelhasználók számára.
A Mission Control natívan érti a NVIDIA NVLink és IMEX tartományokat, és integrálódik a Slurm és a NVIDIA Run:ai munkaterhelés-kezelő platformokkal. Ez a mélyebb topológiai ismeret lehetővé teszi a schedulerek számára, hogy ne csak egy lapos GPU-készletként kezeljék a rendszert, hanem figyelembe vegyék annak hierarchikus és topológiaérzékeny felépítését.
Az új képességeket a NVIDIA Vera Rubin platform, ezen belül a NVIDIA Rubin NVL8 is támogatja majd. A Mission Control, a Slurm és a NVIDIA Run:ai együttesen egy skálázható, ütemezhető és könnyen kezelhető operatív AI-gyárrá alakítja az olyan fejlett GPU-architektúra koncepciókat, mint a NVLink és az IMEX tartományok.