AWS: Nyílt forráskódú eszközökkel skálázza az alapmodellek képzését és következtetését

Az alapmodellek skálázása az elmúlt időszakban jelentősen átalakult: a kezdeti, előképzésre fókuszáló megközelítés helyett ma már a poszt-képzés (például felügyelt finomhangolás és megerősítéses tanuláson alapuló módszerek), valamint a következtetési fázis is kulcsfontosságúvá vált — írja az AWS Enterprise Article.

Ez a változás egységes infrastruktúra-igényeket támaszt: szorosan integrált gyorsító számítási kapacitást, nagy sávszélességű, alacsony késleltetésű hálózatot és elosztott tárolórendszert. Emellett az erőforrás-kezelés és az alkalmazás- és hardverszintű megfigyelhetőség (observability) is felértékelődött a klaszterek egészségének fenntartásához és a teljesítményproblémák diagnosztizálásához.

Nyílt forráskódú integráció az AWS-en

Az alapmodellek életciklusa egyre inkább támaszkodik a nyílt forráskódú szoftver (OSS) ökoszisztémára, amely a modellfejlesztési keretrendszereket, a klaszter erőforrás-kezelését és az üzemeltetési eszközöket is magában foglalja. A klaszter szintjén az erőforrás-kezelést jellemzően olyan rendszerek biztosítják, mint a Slurm és a Kubernetes. A modellfejlesztést és az elosztott képzést gyakran PyTorch és JAX keretrendszerekben valósítják meg, míg a monitorozást és vizualizációt a Prometheus metrikagyűjtő és a Grafana vizualizációs eszközökkel oldják meg az AWS szerint.

A skálázás motorja

Az AWS infrastruktúra-komponensei, beleértve a többcsomópontos gyorsító számítási kapacitást, a nagy sávszélességű hálózatot és az elosztott megosztott tárolást, zökkenőmentesen integrálódnak ezekkel a nyílt forráskódú eszközökkel. Az AWS több generációs NVIDIA GPU-kat kínál Amazon EC2 gyorsított számítási példányai részeként, mint például a P5 és P6 családok. A P5 példányok NVIDIA H100 és H200 GPU-kat tartalmaznak, míg a P6 család már a NVIDIA Blackwell B200 és B300 architektúrára épül.

A NVIDIA B300 HGX GPU például 2,25 PFLOPS BF16/FP16 Tensor csúcsteljesítményt és 288 GB HBM3e memóriát kínál, 8 TB/s sávszélességgel. Az AWS p6-b300.48xlarge példányai nyolc ilyen B300 GPU-t tartalmaznak, amelyek aggregált NVLink sávszélessége eléri a 14,4 TB/s-ot, az EFA sávszélesség pedig 800 GB/s.

Az Amazon EC2 p6-b300.48xlarge példányok nyolc NVIDIA B300 GPU-val rendelkeznek és 2024-ben lesznek elérhetők.