ÉlőUtoljára: 6 perceMa: 19
Modellek & LLMfrissítve: 22:45

A Hugging Face kiadta a TRL v1.0-t, 75-nél több módszert tartalmaz

A TRL v1.0 fejlesztésébe 6 évnyi munka és több mint 1000 commit ment bele

A Hugging Face kiadta a TRL v1.0-t, 75-nél több módszert tartalmaz
Fotó: Fotó: Enchanted Tools / Unsplash
forrás: Reddit LocalLLaMA·AI Forradalom szerk.·
Megosztás

A Hugging Face kiadta a TRL v1.0-t, ami több mint 75 módszert tartalmaz, beleértve az SFT, DPO és GRPO munkafolyamat-kat. A fejlesztés 6 évig tartott, és több mint 1000 commitot jelentett a GitHubon.

A TRL célja, hogy egységes platformot biztosítson a post-training módszerekhez, mint a Supervised Fine‑Tuning, a Direct Preference Optimization és a Gradient‑Based Reinforcement Learning. A könyvtár támogatja az aszinkron GRPO-t, amely a generálást és a betanítást különálló erőforrásokon futtatja, így növelve a GPU és node kihasználtságot.

A Hugging Face szerint a GRPO csökkenti az RL betanítás terhelését, mivel nem igényel külön kritikus modellt, amely a PPO-ban szükséges. A TRL integrálja a PEFT, a data packing és az Unsloth technikákat, hogy javítsa a betanítási hatékonyságot és a memóriakezelést.

Az új kiadás előkészíti a terepet a valós idejű, skálázható RL alkalmazások számára, és szélesebb körű integrációt tesz lehetővé az egyszerű API-kon keresztül.

A következő lépés a GRPO robosztusabbá tétele, hogy a könyvtár még hatékonyabbá váljon több GPU és node környezetében.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom