Frissítve: 7 perce·Ma: 59
Alkalmazások
AI által generált szöveg

A Hugging Face kiadja a TRL v1.0-át: Egységes post-tréning stack az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz

A TRL v1.0 kiadásával a Hugging Face lényegében átrendezi a post-tréning folyamatot, és egységesített API-t biztosít az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz.

A Hugging Face kiadja a TRL v1.0-át: Egységes post-tréning stack az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz
Fotó: Enchanted Tools / Unsplash
Forrás: MarkTechPostSzerző: AI Forradalom szerk.
Megosztás

A Hugging Face kiadta a TRL v1.0-át, amely egy egységes post-tréning stackot biztosít az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz. Ez a kiadás egy áttörést jelent a post-tréning folyamatban, és egy egységesített API-t nyújt a fejlesztőknek.

A TRL v1.0 három fő pilléren nyugszik: egy dedikált parancssori felületen (CLI), egy egységes konfigurációs rendszeren és egy bővített szoftvercsomagon, amely magában foglalja a DPO, GRPO és KTO igazodási algoritmusokat. A post-tréning folyamatot három szakaszra bontja: felügyelt finomhangolás (SFT), jutalommodell és igazodás.

A TRL CLI egy konfiguráció-vezérelt megközelítést biztosít, amely YAML fájlokat vagy közvetlen parancssori argumentumokat használ a betanítási életciklus kezelésére. A `trl` parancs egyetlen parancssori interfészt biztosít a fő betanítási szakaszokhoz. Például, az SFT futtatását egyetlen parancs segítségével lehet végrehajtani.

A TRL v1.0 támogatja a PEFT (paraméterek hatékony finomhangolása) technológiát, amely lehetővé teszi a modell finomhangolását anélkül, hogy a teljes modellt újra kellene tanítani. Emellett a TRL v1.0 integrálja az Unsloth könyvtárat, amely specializált kerneleket biztosít a betanítási folyamatokhoz.

A Hugging Face csapata bevezette a `trl.experimental` névteret, amely elkülöníti a termelési szinten stabil eszközöket a gyorsan fejlődő kutatástól. Ez lehetővé teszi a magkernel könyvtár számára, hogy hátrafelé kompatibilis maradjon, miközben még mindig gazdag, kutatásalapú eszközöket tartalmaz.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom