Valós idejű GPU-kommunikációt figyel a NVIDIA NCCL Inspector 2.30-as frissítése
A NVIDIA NCCL Inspector új, valós idejű Prometheus módja folyamatosan monitorozza a GPU-k közötti kommunikációt elosztott mélytanulási feladatok során, jelentősen csökkentve a tárhelyigényt.

Valós idejű teljesítményfigyelést tesz lehetővé a NVIDIA NCCL Inspector frissítése, amely a Prometheus integrációval élő vizualizációt kínál a GPU-k közötti kommunikációról — írja a NVIDIA Developer Blog.
Az új funkció, amely a NCCL 2.30-as verziójában érhető el, a mélytanulási feladatok során fellépő lassulások okainak gyorsabb azonosítását segíti. A korábbi offline JSON módhoz képest a Prometheus mód kiküszöböli a nagy tárhelyigényt, mivel a teljesítménymetrikákat folyamatosan felülírja, és idősoros adatként továbbítja a Prometheus adatbázisba.
A teljesítményfigyelés új korszaka
Az eszköz minden rangon nyomon követi a művelettípust, méretet és sávszélességet, ezzel felgyorsítva a hibaelhárítást és optimalizálva a képzési folyamatokat. A metrikák a Prometheus Node Exporteren keresztül kerülnek továbbításra, majd Grafana műszerfalakon jelennek meg.
Felgyorsított hibaelhárítás
A beállítás egyszerű környezeti változók segítségével történik, mint például a NCCL_PROFILER_PLUGIN és a NCCL_INSPECTOR_PROM_DUMP. A NVIDIA NCCL Inspector 2.30-as verziója 2024. március 15-én vált elérhetővé a fejlesztők számára.