Frissítve: 11 perce·Ma: 10
Hardver & Infra
AI által generált szöveg

88%-os hatékonyságot ígér a Google DeepMind új Decoupled DiLoCo architektúrája

Az új rendszer aszinkron, hibatűrő 'szigetekre' bontja a számítási feladatokat, így a nagyméretű nyelvi modellek képzése földrajzilag távoli adatközpontok között is hatékonyabbá válik.

88%-os hatékonyságot ígér a Google DeepMind új Decoupled DiLoCo architektúrája
Fotó: Marc PEZIN / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

A Google DeepMind új, Decoupled DiLoCo nevű elosztott képzési architektúrája 88%-os úgynevezett 'goodput'-ot ér el magas hardverhiba arány mellett — írja a MarkTechPost.

A hagyományos elosztott képzés során a chipeknek folyamatosan kommunikálniuk kell egymással, minden egyes gradiensfrissítést szinkronizálva a hálózaton. Egyetlen lassú vagy meghibásodott chip leállíthatja a teljes képzési folyamatot. Ez a törékenység a több százmilliárd paraméteres modellek esetében tarthatatlanná válik.

A szigetek hatalma

A hagyományos Data-Parallel képzés során a modell több gyorsító (GPU vagy TPU) között replikálódik, és mindegyik más-más adatcsomagot dolgoz fel. Minden egyes előre- és hátrafelé irányuló lépés után a gradienseket átlagolni kell az összes eszközön – ezt AllReduce-nak nevezik –, mielőtt a következő képzési lépés megkezdődhetne. Ez a blokkoló szinkronizációs lépés azt jelenti, hogy minden eszköznek meg kell várnia a leglassabbat. Több ezer chip esetében, amelyek több adatközpontot is átívelnek, ez a szűk keresztmetszet globális méretű képzést gyakorlatilag kivitelezhetetlenné teszi.

A sávszélesség is komoly korlátot jelent. A hagyományos Data-Parallel képzés körülbelül 198 Gbps inter-adatközponti sávszélességet igényel nyolc adatközpont között, ami messze meghaladja azt, amit a szabványos WAN (Wide Area Network) támogatni tud a földrajzilag elosztott létesítmények között.

Hidak a szigetek között

A Decoupled DiLoCo a Google két korábbi rendszerére épül. Az egyik a Pathways, amely egy aszinkron adatfolyamon alapuló elosztott AI-rendszert vezetett be, lehetővé téve a különböző számítási erőforrásoknak, hogy saját tempójukban dolgozzanak anélkül, hogy egymásra várnának. A másik a DiLoCo, amely drámaian csökkentette az adatközpontok közötti sávszélesség-igényt azáltal, hogy minden dolgozó számos lokális gradienslépést hajtott végre, mielőtt kommunikált volna a társaival.

A Decoupled DiLoCo mindkét ötletet egyesíti. A Pathways-re épülve a képzés különálló gyorsítófürtök, úgynevezett 'tanuló egységek' között oszlik meg. Minden tanuló egység félig-függetlenül képzi magát, számos lokális lépést hajt végre, mielőtt egy tömörített gradiensjelet osztana meg egy külső optimalizálóval, amely aggregálja a frissítéseket az összes tanuló egységből. Mivel ez a külső szinkronizációs lépés aszinkron, egy chiphiba vagy egy lassú tanuló egység az egyik 'szigeten' nem akadályozza meg a többit a képzés folytatásában. A sávszélesség-megtakarítás drámai: a Decoupled DiLoCo a szükséges inter-adatközponti sávszélességet 198 Gbps-ról mindössze 0,84 Gbps-ra csökkenti nyolc adatközpont között.

A kutatócsoport a Decoupled DiLoCo-t éles környezetben is validálta, sikeresen betanítva egy 12 milliárd paraméteres modellt négy különálló amerikai régióban, mindössze 2-5 Gbps WAN-sávszélesség felhasználásával, 2024. március 15-én.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom