ÉlőUtoljára: 10 perceMa: 5
Alkalmazásokfrissítve: 08:30

A NVIDIA NeMo RL könyvtára felgyorsítja a megerősítő tanulást FP8 precízióval

A NeMo RL könyvtárban a FP8 adatformátum bevezetése jelentősen növeli a teljesítményt a generációs és betanítási fázisokban egyaránt.

A NVIDIA NeMo RL könyvtára felgyorsítja a megerősítő tanulást FP8 precízióval
Fotó: Fotó: Christian Wiediger / Unsplash
forrás: Nvidia Developer·AI Forradalom szerk.·
Megosztás

A NVIDIA NeMo RL nyílt forráskódú könyvtára felgyorsítja a megerősítő tanulási (RL) feladatokat, miközben megőrzi a pontosságot — írja a Nvidia Developer Blog.

A nagyméretű nyelvi modellek (LLM) egyre összetettebb feladatokat végeznek, amihez kulcsfontosságú a megerősítő tanulás. A RL-betanítás két fázisra oszlik: egy szigorú késleltetést igénylő generációs fázisra és egy nagy átviteli sebességet igénylő betanítási fázisra.

A precízió határán

A NVIDIA NeMo RL a DeepSeek-V3 technikai jelentésében bevezetett blokkosan kvantált FP8 receptet használja a lineáris rétegekhez. Ez a megközelítés lehetővé teszi, hogy a lineáris rétegek FP8-as matematikával számoljanak, ami a NVIDIA mérései szerint kétszeres csúcsátviteli sebességet biztosít a BF16-hoz képest.

A RL-folyamatok jellemzően külön motorokat használnak a generáláshoz (pl. vLLM) és a betanításhoz (pl. NVIDIA Megatron Core), amelyek egyedi NVIDIA CUDA kerneleket alkalmaznak a maximális teljesítmény érdekében.

Teljesítmény és pontosság

A FP8 recept fejlesztése során a NVIDIA három megközelítést vizsgált: egy alap BF16-os receptet, egy FP8-at csak a generáláshoz használó receptet, és egy végpontok közötti FP8-as megoldást, amely mind a generációs, mind a betanítási fázisban alkalmazza a FP8-at.

A vizsgálatok szerint a végpontok közötti FP8-as recept következetesen alacsonyabb numerikus eltérést mutatott a generáció és a betanítás között, mint a FP8-at csak a generáláshoz használó változat. A NeMo RL könyvtárban a FP8 adatformátum bevezetése a NVIDIA mérései szerint 2024-ben várhatóan további teljesítménynövekedést eredményez.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom