Modellek & LLM2026. ápr. 2.frissítve: 22:45

A Hugging Face kiadta a TRL v1.0-t, 75-nél több módszert tartalmaz

A TRL v1.0 fejlesztésébe 6 évnyi munka és több mint 1000 commit ment bele

Fotó: Fotó: Enchanted Tools / Unsplash

forrás: Reddit LocalLLaMA·AI Forradalom szerk.·2026. április 2.

Megosztás

A Hugging Face kiadta a TRL v1.0-t, ami több mint 75 módszert tartalmaz, beleértve az SFT, DPO és GRPO munkafolyamat-kat. A fejlesztés 6 évig tartott, és több mint 1000 commitot jelentett a GitHubon.

A TRL célja, hogy egységes platformot biztosítson a post-training módszerekhez, mint a Supervised Fine‑Tuning, a Direct Preference Optimization és a Gradient‑Based Reinforcement Learning. A könyvtár támogatja az aszinkron GRPO-t, amely a generálást és a betanítást különálló erőforrásokon futtatja, így növelve a GPU és node kihasználtságot.

A Hugging Face szerint a GRPO csökkenti az RL betanítás terhelését, mivel nem igényel külön kritikus modellt, amely a PPO-ban szükséges. A TRL integrálja a PEFT, a data packing és az Unsloth technikákat, hogy javítsa a betanítási hatékonyságot és a memóriakezelést.

Az új kiadás előkészíti a terepet a valós idejű, skálázható RL alkalmazások számára, és szélesebb körű integrációt tesz lehetővé az egyszerű API-kon keresztül.

A következő lépés a GRPO robosztusabbá tétele, hogy a könyvtár még hatékonyabbá váljon több GPU és node környezetében.

tetszett a cikk? oszd meg →

Megosztás