A NVIDIA Slinkyvel integrálja a Slurmot Kubernetesbe, 1000+ GPU-s klasztereken
A NVIDIA egy új nyílt forráskódú projekttel, a Slinkyvel oldja meg a nagyvállalati AI-betanítás egyik kulcsfontosságú problémáját, egyesítve a Slurm és Kubernetes rendszereket.

A NVIDIA bemutatta a Slinky nevű nyílt forráskódú projektet, amely áthidalja a Slurm és a Kubernetes közötti szakadékot, lehetővé téve a nagyméretű GPU-s AI-betanítási feladatok hatékony kezelését — írja a NVIDIA Developer blogja.
A Slurm, amely a TOP500 rendszerek több mint 65%-ánál felelős a feladatütemezésért, mostantól natívan futtatható Kubernetes infrastruktúrán. A Slinky két megközelítést alkalmaz: a slurm-bridge a Slurm ütemezést hozza el a natív Kubernetes feladatokhoz, míg a slurm-operator teljes Slurm klasztereket futtat Kubernetesen, kezelve a Slurm démonok teljes életciklusát podokként.
A szinkronizáció művészete
A NVIDIA a slurm-operatorra fókuszál, és már élesben is használja több mint 1000 GPU-s munkacsomóponttal és 8000+ GPU-val rendelkező klasztereken. A Slinky slurm-operator minden Slurm komponenst (slurmctld, slurmdbd, slurmd, slurmrestd) Kubernetes Custom Resource Definition (CRD) formájában reprezentál. Ez lehetővé teszi a Slurm klaszterek definiálását Custom Resource-ok segítségével, és konténerizált Slurm démonokat hoz létre saját podokban.
Átláthatóság és skálázhatóság
A Slinky biztosítja a Slurm vezérlősík (slurmctld) magas rendelkezésre állását pod-regenerálással, és automatikusan terjeszti a konfigurációs változásokat. A Slurm v25.11 óta támogatott OpenMetrics és Prometheus monitorozás révén a munkacsomópontok automatikusan skálázhatók a HorizontalPodAutoscaler (HPA) segítségével. Skálázáskor a Slinky teljesen leüríti a Slurm csomópontokat a podok leállítása előtt, biztosítva a futó feladatok befejezését. Ugyanez a folyamat érvényesül új munkavégző pod-képek (például frissített Slurm verziók vagy OS-javítások) bevezetésekor, így a frissítések nem szakítják meg a futó feladatokat. A NVIDIA 2024. február 15-én tesztelte a Slinky rendszert.