Kutatás2026. máj. 17.frissítve: 07:50

Diffúziós nyelvi modelleket javít a TraFL — minden teljesítményteszten felülmúlja az alapmodellt

A TraFL (Trajectory Flow baLancing) nevű új eljárás a diffúziós nyelvi modellek poszt-betanítási fázisában jelentkező „pályazár” problémát orvosolja, amely a megoldások szűk körére koncentrálja a modellt.

Fotó: UC Berkeley, Department of Geography / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 17.

Megosztás

A diffúziós nyelvi modellek ígéretes alternatívát jelentenek az autoregresszív modellekkel szemben, ám poszt-betanítási módszereik gyakran a jutalommaximalizálásra fókuszálnak — írja az ArXiv-en megjelent kutatás. Ez a megközelítés egy „pályazár” nevű hibához vezethet, ahol a modell túlságosan egy szűk denoise-útvonalra koncentrál, csökkentve az alternatív, helyes megoldások megtalálásának esélyét ismételt mintavételezés során.

A kutatók a TraFL (Trajectory Flow baLancing) módszert javasolják, amely egy trajektória-egyensúlyi célkitűzés. Ez a módszer a modellt egy jutalommal súlyozott cél eloszlás felé képezi, egy rögzített referencia modellhez horgonyozva. A TraFL a diffúziós nyelvi modellek számára is praktikusan alkalmazható, egy diffúzió-kompatibilis szekvencia-szintű szurrogátum és egy tanult, prompt-függő normalizálás segítségével.

Matematikai érvelési és kódgenerálási benchmarkokon a TraFL az egyetlen poszt-betanítási módszer, amely minden teljesítményteszt-hosszúságú beállításban javulást mutat az alapmodellhez képest. A TraFL-t a 2605.13935v1 számú preprintben részletezik.

tetszett a cikk? oszd meg →

Megosztás