Valós idejű GPU-flottafelügyeletet indít a NVIDIA Fleet Intelligence
Az új ügynök-alapú szolgáltatás folyamatosan figyeli a NVIDIA adatközponti GPU-kat, segítve a heterogén hardverek és a változékony terhelések kezelését.

Valós idejű láthatóságot és optimalizálási lehetőségeket kínál a GPU-flottákhoz a NVIDIA Fleet Intelligence, egy újonnan bevezetett menedzselt szolgáltatás — írja a NVIDIA Developer Blog.
A szolgáltatás célja, hogy a nagy GPU-flottákat üzemeltető vállalatok hatékonyabban kezelhessék a komplex rendszereket, amelyek heterogén hardverekből, gyorsan változó szoftverekből, szűkös energiafelhasználási keretekből és ingadozó, többfelhasználós terhelésekből állnak. A Fleet Intelligence kulcsfontosságú területeket monitoroz, mint az energiafelhasználás, hőmérséklet, teljesítmény, állapot és a konfigurációk egységessége.
A NVIDIA szerint egyetlen hibás beállítás vagy hardverhiba is komoly problémákat okozhat, például lelassult feladatokat, nem teljesített szolgáltatási szinteket (SLA) és felesleges kiadásokat. A Fleet Intelligence ügynöke nyílt forráskódú, ami lehetővé teszi a független ellenőrzést, és más NVIDIA nyílt forráskódú megoldásokat is felhasznál, mint a GPUd, a NVIDIA Data Center GPU Manager (DCGM) és a NVIDIA Attestation SDK.
A szolgáltatás általánosan elérhető változata (GA release) a leltárra és vizualizációra, jelentésekre, riasztásokra, állapotellenőrzésekre, integritásra és hitelesítésre fókuszál. A fejlesztés során a NVIDIA Cloud Partnerek, köztük a Lambda és az IREN visszajelzéseit is figyelembe vették.