A NVIDIA NeMo RL könyvtára felgyorsítja a megerősítő tanulást FP8 precízióval
A NeMo RL könyvtárban a FP8 adatformátum bevezetése jelentősen növeli a teljesítményt a generációs és betanítási fázisokban egyaránt.

A NVIDIA NeMo RL nyílt forráskódú könyvtára felgyorsítja a megerősítő tanulási (RL) feladatokat, miközben megőrzi a pontosságot — írja a Nvidia Developer Blog.
A nagyméretű nyelvi modellek (LLM) egyre összetettebb feladatokat végeznek, amihez kulcsfontosságú a megerősítő tanulás. A RL-betanítás két fázisra oszlik: egy szigorú késleltetést igénylő generációs fázisra és egy nagy átviteli sebességet igénylő betanítási fázisra.
A precízió határán
A NVIDIA NeMo RL a DeepSeek-V3 technikai jelentésében bevezetett blokkosan kvantált FP8 receptet használja a lineáris rétegekhez. Ez a megközelítés lehetővé teszi, hogy a lineáris rétegek FP8-as matematikával számoljanak, ami a NVIDIA mérései szerint kétszeres csúcsátviteli sebességet biztosít a BF16-hoz képest.
A RL-folyamatok jellemzően külön motorokat használnak a generáláshoz (pl. vLLM) és a betanításhoz (pl. NVIDIA Megatron Core), amelyek egyedi NVIDIA CUDA kerneleket alkalmaznak a maximális teljesítmény érdekében.
Teljesítmény és pontosság
A FP8 recept fejlesztése során a NVIDIA három megközelítést vizsgált: egy alap BF16-os receptet, egy FP8-at csak a generáláshoz használó receptet, és egy végpontok közötti FP8-as megoldást, amely mind a generációs, mind a betanítási fázisban alkalmazza a FP8-at.
A vizsgálatok szerint a végpontok közötti FP8-as recept következetesen alacsonyabb numerikus eltérést mutatott a generáció és a betanítás között, mint a FP8-at csak a generáláshoz használó változat. A NeMo RL könyvtárban a FP8 adatformátum bevezetése a NVIDIA mérései szerint 2024-ben várhatóan további teljesítménynövekedést eredményez.