A Hugging Face kiadta a TRL v1.0-t, 75-nél több módszert tartalmaz
A TRL v1.0 fejlesztésébe 6 évnyi munka és több mint 1000 commit ment bele

A Hugging Face kiadta a TRL v1.0-t, ami több mint 75 módszert tartalmaz, beleértve az SFT, DPO és GRPO munkafolyamat-kat. A fejlesztés 6 évig tartott, és több mint 1000 commitot jelentett a GitHubon.
A TRL célja, hogy egységes platformot biztosítson a post-training módszerekhez, mint a Supervised Fine‑Tuning, a Direct Preference Optimization és a Gradient‑Based Reinforcement Learning. A könyvtár támogatja az aszinkron GRPO-t, amely a generálást és a betanítást különálló erőforrásokon futtatja, így növelve a GPU és node kihasználtságot.
A Hugging Face szerint a GRPO csökkenti az RL betanítás terhelését, mivel nem igényel külön kritikus modellt, amely a PPO-ban szükséges. A TRL integrálja a PEFT, a data packing és az Unsloth technikákat, hogy javítsa a betanítási hatékonyságot és a memóriakezelést.
Az új kiadás előkészíti a terepet a valós idejű, skálázható RL alkalmazások számára, és szélesebb körű integrációt tesz lehetővé az egyszerű API-kon keresztül.
A következő lépés a GRPO robosztusabbá tétele, hogy a könyvtár még hatékonyabbá váljon több GPU és node környezetében.