Új Conditional Attribute Transformers: ezerszer gyorsabban becsüli az attribútumokat
A Conditional Attribute Transformers (CAT) módszerrel a generatív modellek sokkal gyorsabban becsülhetik meg a szekvencia szintű attribútumokat, mint a korábbi mintavételi eljárások.

A generatív modelleket gyakran a következő-token előrejelzés céljával képzik, ám sok alkalmazásnál szükség van a szekvencia szintű tulajdonságok becslésére vagy szabályozására — írja az arXiv-on megjelent kutatás.
A következő-token előrejelzés a betanítás során lokális minták túltanulásához, a globális struktúra alultanulásához vezethet. Emellett jelentős utólagos módosításokat vagy drága mintavételezést igényel a generált minták globális attribútumainak irányításához vagy előrejelzéséhez az inferencia során.
A szekvencia szintű átalakulás
A kutatók most bemutatták a Conditional Attribute Transformers (CAT) rendszert, egy új módszert a következő-token valószínűségének és egy attribútum értékének együttes becslésére, feltételezve minden lehetséges következő-token kiválasztást. Ez a megközelítés három kulcsfontosságú képességet tesz lehetővé egyetlen előremenő lépésben, a bemeneti szekvencia módosítása nélkül.
A CAT rendszer teljesítménye
A CAT segítségével minden tokenhez hozzárendelhető egy attribútum érték, számszerűsíthetők az attribútumkülönbségek alternatív következő-token választások esetén, és irányítható a szekvenciák generálása a következő-token és az attribútum valószínűségeinek kombinációja alapján. A módszer a ritka jutalmazású feladatokon is kiemelkedő teljesítményt nyújt, és elegendő modellméret esetén javítja a következő-token előrejelzést, miközben az attribútum-valószínűségeket nagyságrendekkel gyorsabban becsüli, mint a hagyományos mintavételezés. Az arXiv-on megjelent kutatás szerint a CAT rendszer az autoregresszív szekvenciamodellek dekódolását is képes irányítani számos nyelvi feladatban, 2024. márciusában történő publikálásra került.