Frissítve: 14 perce·Ma: 63
Modellek & LLM
AI által generált szöveg

A Hugging Face kiadta a TRL v1.0-t, 75-nél több módszert tartalmaz

A TRL v1.0 fejlesztésébe 6 évnyi munka és több mint 1000 commit ment bele

A Hugging Face kiadta a TRL v1.0-t, 75-nél több módszert tartalmaz
Fotó: Enchanted Tools / Unsplash
Forrás: Reddit LocalLLaMASzerző: AI Forradalom szerk.
Megosztás

A Hugging Face kiadta a TRL v1.0-t, ami több mint 75 módszert tartalmaz, beleértve az SFT, DPO és GRPO munkafolyamat-kat. A fejlesztés 6 évig tartott, és több mint 1000 commitot jelentett a GitHubon.

A TRL célja, hogy egységes platformot biztosítson a post-training módszerekhez, mint a Supervised Fine‑Tuning, a Direct Preference Optimization és a Gradient‑Based Reinforcement Learning. A könyvtár támogatja az aszinkron GRPO-t, amely a generálást és a betanítást különálló erőforrásokon futtatja, így növelve a GPU és node kihasználtságot.

A Hugging Face szerint a GRPO csökkenti az RL betanítás terhelését, mivel nem igényel külön kritikus modellt, amely a PPO-ban szükséges. A TRL integrálja a PEFT, a data packing és az Unsloth technikákat, hogy javítsa a betanítási hatékonyságot és a memóriakezelést.

Az új kiadás előkészíti a terepet a valós idejű, skálázható RL alkalmazások számára, és szélesebb körű integrációt tesz lehetővé az egyszerű API-kon keresztül.

A következő lépés a GRPO robosztusabbá tétele, hogy a könyvtár még hatékonyabbá váljon több GPU és node környezetében.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom