Hardver & Infra2026. ápr. 24.frissítve: 07:10

88%-os hatékonyságot ígér a Google DeepMind új Decoupled DiLoCo architektúrája

Az új rendszer aszinkron, hibatűrő 'szigetekre' bontja a számítási feladatokat, így a nagyméretű nyelvi modellek képzése földrajzilag távoli adatközpontok között is hatékonyabbá válik.

Fotó: Marc PEZIN / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. április 24.

Megosztás

A Google DeepMind új, Decoupled DiLoCo nevű elosztott képzési architektúrája 88%-os úgynevezett 'goodput'-ot ér el magas hardverhiba arány mellett — írja a MarkTechPost.

A hagyományos elosztott képzés során a chipeknek folyamatosan kommunikálniuk kell egymással, minden egyes gradiensfrissítést szinkronizálva a hálózaton. Egyetlen lassú vagy meghibásodott chip leállíthatja a teljes képzési folyamatot. Ez a törékenység a több százmilliárd paraméteres modellek esetében tarthatatlanná válik.

A szigetek hatalma

A hagyományos Data-Parallel képzés során a modell több gyorsító (GPU vagy TPU) között replikálódik, és mindegyik más-más adatcsomagot dolgoz fel. Minden egyes előre- és hátrafelé irányuló lépés után a gradienseket átlagolni kell az összes eszközön – ezt AllReduce-nak nevezik –, mielőtt a következő képzési lépés megkezdődhetne. Ez a blokkoló szinkronizációs lépés azt jelenti, hogy minden eszköznek meg kell várnia a leglassabbat. Több ezer chip esetében, amelyek több adatközpontot is átívelnek, ez a szűk keresztmetszet globális méretű képzést gyakorlatilag kivitelezhetetlenné teszi.

A sávszélesség is komoly korlátot jelent. A hagyományos Data-Parallel képzés körülbelül 198 Gbps inter-adatközponti sávszélességet igényel nyolc adatközpont között, ami messze meghaladja azt, amit a szabványos WAN (Wide Area Network) támogatni tud a földrajzilag elosztott létesítmények között.

Hidak a szigetek között

A Decoupled DiLoCo a Google két korábbi rendszerére épül. Az egyik a Pathways, amely egy aszinkron adatfolyamon alapuló elosztott AI-rendszert vezetett be, lehetővé téve a különböző számítási erőforrásoknak, hogy saját tempójukban dolgozzanak anélkül, hogy egymásra várnának. A másik a DiLoCo, amely drámaian csökkentette az adatközpontok közötti sávszélesség-igényt azáltal, hogy minden dolgozó számos lokális gradienslépést hajtott végre, mielőtt kommunikált volna a társaival.

A Decoupled DiLoCo mindkét ötletet egyesíti. A Pathways-re épülve a képzés különálló gyorsítófürtök, úgynevezett 'tanuló egységek' között oszlik meg. Minden tanuló egység félig-függetlenül képzi magát, számos lokális lépést hajt végre, mielőtt egy tömörített gradiensjelet osztana meg egy külső optimalizálóval, amely aggregálja a frissítéseket az összes tanuló egységből. Mivel ez a külső szinkronizációs lépés aszinkron, egy chiphiba vagy egy lassú tanuló egység az egyik 'szigeten' nem akadályozza meg a többit a képzés folytatásában. A sávszélesség-megtakarítás drámai: a Decoupled DiLoCo a szükséges inter-adatközponti sávszélességet 198 Gbps-ról mindössze 0,84 Gbps-ra csökkenti nyolc adatközpont között.

A kutatócsoport a Decoupled DiLoCo-t éles környezetben is validálta, sikeresen betanítva egy 12 milliárd paraméteres modellt négy különálló amerikai régióban, mindössze 2-5 Gbps WAN-sávszélesség felhasználásával, 2024. március 15-én.

tetszett a cikk? oszd meg →

Megosztás