ÉlőUtoljára: 34 perceMa: 0
Kutatásfrissítve: 09:50

Új Conditional Attribute Transformers: ezerszer gyorsabban becsüli az attribútumokat

A Conditional Attribute Transformers (CAT) módszerrel a generatív modellek sokkal gyorsabban becsülhetik meg a szekvencia szintű attribútumokat, mint a korábbi mintavételi eljárások.

Új Conditional Attribute Transformers: ezerszer gyorsabban becsüli az attribútumokat
Fotó: Fotó: xing bowen / Unsplash
forrás: ArXiv AI·AI Forradalom szerk.·
Megosztás

A generatív modelleket gyakran a következő-token előrejelzés céljával képzik, ám sok alkalmazásnál szükség van a szekvencia szintű tulajdonságok becslésére vagy szabályozására — írja az arXiv-on megjelent kutatás.

A következő-token előrejelzés a betanítás során lokális minták túltanulásához, a globális struktúra alultanulásához vezethet. Emellett jelentős utólagos módosításokat vagy drága mintavételezést igényel a generált minták globális attribútumainak irányításához vagy előrejelzéséhez az inferencia során.

A szekvencia szintű átalakulás

A kutatók most bemutatták a Conditional Attribute Transformers (CAT) rendszert, egy új módszert a következő-token valószínűségének és egy attribútum értékének együttes becslésére, feltételezve minden lehetséges következő-token kiválasztást. Ez a megközelítés három kulcsfontosságú képességet tesz lehetővé egyetlen előremenő lépésben, a bemeneti szekvencia módosítása nélkül.

A CAT rendszer teljesítménye

A CAT segítségével minden tokenhez hozzárendelhető egy attribútum érték, számszerűsíthetők az attribútumkülönbségek alternatív következő-token választások esetén, és irányítható a szekvenciák generálása a következő-token és az attribútum valószínűségeinek kombinációja alapján. A módszer a ritka jutalmazású feladatokon is kiemelkedő teljesítményt nyújt, és elegendő modellméret esetén javítja a következő-token előrejelzést, miközben az attribútum-valószínűségeket nagyságrendekkel gyorsabban becsüli, mint a hagyományos mintavételezés. Az arXiv-on megjelent kutatás szerint a CAT rendszer az autoregresszív szekvenciamodellek dekódolását is képes irányítani számos nyelvi feladatban, 2024. márciusában történő publikálásra került.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom