SLAM: Új vízjelezési módszer 1-2 pontra csökkenti a LLM-ek minőségromlását
A SLAM eljárás a nyelvi modellek strukturális geometriájába írja a jelet, ami 1-2 jutalompontnyi minőségromlással jár.

A nagyméretű nyelvi modellek (LLM) vízjelezése eddig kompromisszumot jelentett: a detektálhatóságért cserébe romlott a generált szöveg minősége. Ezt a problémát oldja meg a SLAM, amely mindössze 1-2 jutalompontnyi minőségromlással jár, szemben a korábbi módszerek 7,5-11,5 pontjával — írja az arXiv-on megjelent tanulmány.
A SLAM a vízjelet a maradék adatfolyam (residual stream) irányába kódolja, amelyek nyelvi struktúrákat, például a mondat hangnemét, idejét vagy a mellékmondatok sorrendjét reprezentálják. Ezáltal a lexikális mintavételezés és a szemantika érintetlen marad, megőrizve a szöveg természetességét és sokszínűségét.
A kutatók a Gemma-2 2B és 9B modelljein tesztelték a SLAM-et, ahol 100%-os észlelési pontosságot értek el. A módszer ellenáll a szó szintű szerkesztéseknek, ami a korábbi vízjelezési technikákhoz képest komplementer robusztussági profilt biztosít.
A SLAM tehát új utat nyit a generatív AI-tartalmak megbízható azonosításában anélkül, hogy a felhasználói élmény jelentősen romlana. A technológia a jövőben kulcsfontosságú lehet az AI által generált tartalmak hitelességének megőrzésében.