Diffúziós nyelvi modelleket javít a TraFL — minden teljesítményteszten felülmúlja az alapmodellt
A TraFL (Trajectory Flow baLancing) nevű új eljárás a diffúziós nyelvi modellek poszt-betanítási fázisában jelentkező „pályazár” problémát orvosolja, amely a megoldások szűk körére koncentrálja a modellt.

A diffúziós nyelvi modellek ígéretes alternatívát jelentenek az autoregresszív modellekkel szemben, ám poszt-betanítási módszereik gyakran a jutalommaximalizálásra fókuszálnak — írja az ArXiv-en megjelent kutatás. Ez a megközelítés egy „pályazár” nevű hibához vezethet, ahol a modell túlságosan egy szűk denoise-útvonalra koncentrál, csökkentve az alternatív, helyes megoldások megtalálásának esélyét ismételt mintavételezés során.
A kutatók a TraFL (Trajectory Flow baLancing) módszert javasolják, amely egy trajektória-egyensúlyi célkitűzés. Ez a módszer a modellt egy jutalommal súlyozott cél eloszlás felé képezi, egy rögzített referencia modellhez horgonyozva. A TraFL a diffúziós nyelvi modellek számára is praktikusan alkalmazható, egy diffúzió-kompatibilis szekvencia-szintű szurrogátum és egy tanult, prompt-függő normalizálás segítségével.
Matematikai érvelési és kódgenerálási benchmarkokon a TraFL az egyetlen poszt-betanítási módszer, amely minden teljesítményteszt-hosszúságú beállításban javulást mutat az alapmodellhez képest. A TraFL-t a 2605.13935v1 számú preprintben részletezik.