A Safety-Aware Denoiser (SAD) kiküszöböli a diffúziós modellek újratanítását
A Safety-Aware Denoiser (SAD) nevű új keretrendszer a diffúziós modellek iteratív zajtalanítási folyamatát módosítja, hogy a generált szöveg a biztonságos régiók felé terelődjön.

A szöveges diffúziós modellek ígéretes alternatívát kínálnak az autoregresszív generálással szemben, ám biztonsági kontrolljuk eddig feltáratlan maradt. A meglévő biztonsági megközelítések, amelyek az autoregresszív modellekre fókuszálnak, utólagos szűrésre vagy következtetési idejű beavatkozásokra támaszkodnak — írja az arXiv:2605.08116v1 előnyomtatott tanulmánya.
Ezek a módszerek a kutatók szerint elégtelenek a szöveges diffúziós modellek biztonsági kockázatainak hatékony kezelésére. A probléma megoldására a kutatók egy új, úgynevezett Safety-Aware Denoiser (SAD) rendszert javasolnak, amely a szöveges diffúziós modellek biztonsági irányítására szolgál.
A SAD a zajtalanítási folyamatba integrálja a biztonsági korlátokat, elkerülve az alapul szolgáló diffúziós modell számításilag drága újratanítását. Ez a következtetési idejű módszer rugalmas és könnyű biztonsági irányítást tesz lehetővé.
A SAD lényege, hogy módosítja az iteratív zajtalanítási folyamatot, így a végső lépésben kapott szövegminta a bizonyíthatóan biztonságos szövegtér régiói felé terelődik. A generált szöveg biztonságát a veszélyek taxonómiája és a memorizáció alapján értékelik.
A kutatás szerint a SAD megoldást kínál a szöveges diffúziós modellek eddig feltáratlan biztonsági kihívásaira, anélkül, hogy jelentős számítási erőforrásokat igényelne. A tanulmány az arXiv:2605.08116v1 azonosító alatt érhető el.