Frissítve: 11 perce·Ma: 10
Hardver & Infra
AI által generált szöveg

OpenAI: új MRC protokoll gyorsítja és stabilizálja a szuperkomputer AI-képzést

Az új Multipath Reliable Connection (MRC) protokoll javítja a GPU-hálózatok teljesítményét és ellenállóképességét a nagyméretű képzési klaszterekben, minimalizálva a hálózati torlódásokat és a hibák hatását.

OpenAI: új MRC protokoll gyorsítja és stabilizálja a szuperkomputer AI-képzést
Fotó: Barez Omer / Unsplash
Forrás: OpenAISzerző: AI Forradalom szerk.
Megosztás

Új hálózati protokollt mutatott be az OpenAI, amely a nagyméretű AI-képzési klaszterek hálózati teljesítményét és ellenállóképességét hivatott javítani — írja az OpenAI blogja. A Multipath Reliable Connection (MRC) nevű megoldást az AMD, a Broadcom, az Intel, a Microsoft és a NVIDIA bevonásával fejlesztették ki.

A protokoll célja, hogy a szuperkomputer méretű AI-modellek betanítása során fellépő hálózati torlódásokat minimalizálja, és a hálózati hibák képzési feladatokra gyakorolt hatását csökkentse. Az OpenAI szerint a fejlesztés kritikus fontosságú a modern, óriási AI-modellek megbízható és hatékony tréningezéséhez.

A hálózatok új dimenziója

A nagyméretű AI-modellek képzése során egyetlen lépés is több millió adatátvitelt foglalhat magában. Ha egy adatátvitel késve érkezik meg, az az egész feladaton végiggyűrűzhet, és a GPU-k tétlenül állhatnak. A hálózati torlódások, a link- és eszközhibák az átviteli késedelmek és ingadozások leggyakoribb forrásai.

Ezek a problémák a klaszter méretének növekedésével gyakoribbá és nehezebben megoldhatóvá válnak. Ezért vált a hálózati technológia a Stargate szuperkomputer tervezésének kulcsfontosságú részévé. A MRC-t az Open Compute Project (OCP) keretében tették közzé, hogy az iparág szélesebb körben is alkalmazhassa.

Áttörés a hálózati kommunikációban

A MRC alapvetően megváltoztatja az adatátvitel modelljét. Ahelyett, hogy egy átvitelt egyetlen útvonalra rendelne, a MRC egyetlen átvitel csomagjait több száz útvonalon keresztül szórja szét a hálózaton, az összes különálló síkon. A csomagok sorrenden kívül is megérkezhetnek, de minden MRC-csomag tartalmazza a végső memóriacím, így a célállomás a beérkezéskor azonnal memóriába írhatja azokat.

A protokoll már bevezetésre került az OpenAI legnagyobb NVIDIA GB200 szuperkomputerein, amelyeket a legfejlettebb modellek képzésére használnak, beleértve az Oracle Cloud Infrastructure (OCI) abilene-i és a Microsoft Fairwater szuperkomputereit. A MRC specifikációja már elérhető az Open Compute Project (OCP) közösségi hozzájárulásaként, így mások is felhasználhatják és továbbfejleszthetik, 2024-re várható a széleskörű alkalmazása.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom