25%-kal gyorsítja a LLM-betanítást az Unsloth és a NVIDIA új közös fejlesztése

Közös fejlesztésen dolgozott az Unsloth és a NVIDIA, melynek célja a LLM-ek (nagyméretű nyelvi modellek) betanításának felgyorsítása. Az együttműködés eredményeként a folyamat mintegy 25%-kal gyorsabbá vált — írja a Hacker News.

Az új algoritmusok automatikusan aktiválódnak a RTX laptopokon, adatközponti GPU-kon és DGX Spark gépeken; a felhasználóknak mindössze frissíteniük kell az Unsloth szoftverét a legújabb fejlesztések eléréséhez. A gyorsítás három fő területen jelentkezik: a csomagolt szekvencia metaadatok gyorsítótárazása 14,3%-kal, a kettős pufferelésű aszinkron gradiens ellenőrzés 8%-kal, míg a gpt-oss betanítás 15%-kal gyorsabbá vált az argsort és bincount használatával a MoE (Mixture of Experts) útválasztás során.

A fejlesztés mérföldkövei

A csomagolt szekvencia metaadatok gyorsítótárazása kulcsfontosságú. Ahelyett, hogy a modell minden rétegben újraépítené ugyanazt a metaadatot (szekvenciahosszok, eltolások, maximális szekvenciahossz és figyelmi struktúra), az Unsloth egyszer építi fel, majd újra felhasználja azt. Ez a módszer a Qwen3-14B QLoRA SFT betanításánál 14,3%-os sebességnövekedést eredményezett, a forward passzban 43,3%-os, a backward passzban pedig 5,8%-os javulással.

Gyorsulás a gyakorlatban

A kettős pufferelésű aszinkron gradiens ellenőrzés a memória megtakarítását szolgáló aktivációs ellenőrzés során fellépő késleltetést hivatott elrejteni. Egyetlen puffer helyett két puffer használatával a rendszer képes előre betölteni a következő aktivációt a GPU-ra, miközben az aktuális réteg számításai futnak. Az Unsloth szerint a fejlesztés 2026. május 6-án vált elérhetővé a felhasználók számára, ezzel újabb mérföldkőhöz érkezett a LLM-betanítás gyorsítása.