Alkalmazások2026. ápr. 22.frissítve: 10:30

Az NVIDIA NeMo RL könyvtára felgyorsítja a megerősítő tanulást FP8 precízióval

A NeMo RL könyvtárban az FP8 adatformátum bevezetése jelentősen növeli a teljesítményt a generációs és betanítási fázisokban egyaránt.

Fotó: Christian Wiediger / Unsplash

forrás: Nvidia Developer·AI Forradalom szerk.·2026. április 22.

Megosztás

Az NVIDIA NeMo RL nyílt forráskódú könyvtára felgyorsítja a megerősítő tanulási (RL) feladatokat, miközben megőrzi a pontosságot — írja az Nvidia Developer Blog.

A nagyméretű nyelvi modellek (LLM) egyre összetettebb feladatokat végeznek, amihez kulcsfontosságú a megerősítő tanulás. A RL-betanítás két fázisra oszlik: egy szigorú késleltetést igénylő generációs fázisra és egy nagy átviteli sebességet igénylő betanítási fázisra.

A precízió határán

Az NVIDIA NeMo RL a DeepSeek-V3 technikai jelentésében bevezetett blokkosan kvantált FP8 receptet használja a lineáris rétegekhez. Ez a megközelítés lehetővé teszi, hogy a lineáris rétegek FP8-as matematikával számoljanak, ami az NVIDIA mérései szerint kétszeres csúcsátviteli sebességet biztosít a BF16-hoz képest.

A RL-folyamatok jellemzően külön motorokat használnak a generáláshoz (pl. vLLM) és a betanításhoz (pl. NVIDIA Megatron Core), amelyek egyedi NVIDIA CUDA kerneleket alkalmaznak a maximális teljesítmény érdekében.

Teljesítmény és pontosság

Az FP8 recept fejlesztése során az NVIDIA három megközelítést vizsgált: egy alap BF16-os receptet, egy FP8-at csak a generáláshoz használó receptet, és egy végpontok közötti FP8-as megoldást, amely mind a generációs, mind a betanítási fázisban alkalmazza az FP8-at.

A vizsgálatok szerint a végpontok közötti FP8-as recept következetesen alacsonyabb numerikus eltérést mutatott a generáció és a betanítás között, mint az FP8-at csak a generáláshoz használó változat. A NeMo RL könyvtárban az FP8 adatformátum bevezetése az NVIDIA mérései szerint 2024-ben várhatóan további teljesítménynövekedést eredményez.

tetszett a cikk? oszd meg →

Megosztás