A NVIDIA új GPU Usage Monitorja valós idejű Kubernetes-fürtfelügyeletet biztosít
A GPU Usage Monitor egyetlen Helm chart telepítéssel biztosít átfogó képet a GPU-allokációról, számítási kihasználtságról és memóriafogyasztásról a Kubernetes-fürtökben.

Valós idejű betekintést nyújt a Kubernetes-fürtök GPU-kihasználtságába a NVIDIA új, nyílt forráskódú eszköze, a GPU Usage Monitor — írja a NVIDIA Developer blogja. A megoldás célja, hogy a platformcsapatok hatékonyabban kezelhessék AI-infrastruktúrájukat, elkerülve a túlzott erőforrás-allokációt és a tervezési szűk keresztmetszeteket.
A GPU Usage Monitor a NVIDIA Data Center GPU Manager (DCGM) Exporterre épül, és egyetlen Helm chart segítségével telepíthető. Ez az integrált megközelítés egyszerűsíti a GPU-specifikus metrikák gyűjtését és vizualizációját, amelyek hiányoznak a standard Kubernetes mérési stackből. A rendszer a DCGM Exporter, a kube-state-metrics, a Prometheus és a Grafana komponenseket egyesíti, előre konfigurált dashboardokkal.
A kihasználtság optimalizálása
A GPU-gyorsított Kubernetes-fürtök kezelésében két gyakori és költséges hibaforrás a túlzott erőforrás-allokáció és az ütemezési problémák. Sok esetben a modellek a rendelkezésre álló memória és számítási kapacitás mindössze 30-50%-át használják, ami alacsony effektív kihasználtsághoz vezet. A GPU Usage Monitor valós idejű memóriahasználati adatokkal segíti a pontos erőforrás-igénylést, így a csapatok visszanyerhetik az üresjárati kapacitást.
A fürtök átláthatósága
Az eszköz emellett a függőben lévő és futó podok számát is figyelemmel kíséri, korai figyelmeztetést adva az ütemezési nyomásra. Ez a funkció lehetővé teszi a problémák proaktív kezelését, mielőtt a felhasználók észlelnék a hibákat. A dashboardok GPU-típus szerinti szűrést is kínálnak, ami különösen hasznos heterogén környezetekben, ahol különböző NVIDIA GPU platformok (például Hopper, Blackwell) működnek együtt.
A GPU Usage Monitor Apache 2.0 licenc alatt érhető el a GitHubon, és percek alatt telepíthető Kubernetes 1.19 vagy újabb, valamint Helm 3.0 vagy újabb verzióval. A telepítés után az admin/admin alapértelmezett hitelesítő adatokkal lehet bejelentkezni a Grafana felületére, ahol azonnal hozzáférhetők a GPU-erőforrások állapotát mutató dashboardok a 2024. március 15-én elindított NVIDIA Developer programban.