A Hugging Face kiadja a TRL v1.0-át: Egységes post-tréning stack az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz
A TRL v1.0 kiadásával a Hugging Face lényegében átrendezi a post-tréning folyamatot, és egységesített API-t biztosít az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz.

A Hugging Face kiadta a TRL v1.0-át, amely egy egységes post-tréning stackot biztosít az SFT, jutalommodell, DPO és GRPO munkafolyamataihoz. Ez a kiadás egy áttörést jelent a post-tréning folyamatban, és egy egységesített API-t nyújt a fejlesztőknek.
A TRL v1.0 három fő pilléren nyugszik: egy dedikált parancssori felületen (CLI), egy egységes konfigurációs rendszeren és egy bővített szoftvercsomagon, amely magában foglalja a DPO, GRPO és KTO igazodási algoritmusokat. A post-tréning folyamatot három szakaszra bontja: felügyelt finomhangolás (SFT), jutalommodell és igazodás.
A TRL CLI egy konfiguráció-vezérelt megközelítést biztosít, amely YAML fájlokat vagy közvetlen parancssori argumentumokat használ a betanítási életciklus kezelésére. A `trl` parancs egyetlen parancssori interfészt biztosít a fő betanítási szakaszokhoz. Például, az SFT futtatását egyetlen parancs segítségével lehet végrehajtani.
A TRL v1.0 támogatja a PEFT (paraméterek hatékony finomhangolása) technológiát, amely lehetővé teszi a modell finomhangolását anélkül, hogy a teljes modellt újra kellene tanítani. Emellett a TRL v1.0 integrálja az Unsloth könyvtárat, amely specializált kerneleket biztosít a betanítási folyamatokhoz.
A Hugging Face csapata bevezette a `trl.experimental` névteret, amely elkülöníti a termelési szinten stabil eszközöket a gyorsan fejlődő kutatástól. Ez lehetővé teszi a magkernel könyvtár számára, hogy hátrafelé kompatibilis maradjon, miközben még mindig gazdag, kutatásalapú eszközöket tartalmaz.