A tokenizációs drift miatt romlik az AI-modellek teljesítménye — apró formázás is gondot okoz
A jelenség akkor jelentkezik, amikor a bemeneti szöveg apró formázási eltérései váratlan viselkedésbeli változásokat okoznak a modellben.

A tokenizációs drift jelensége miatt a legkisebb formázási különbségek is eltérő token-szekvenciákat eredményeznek, ami rontja az AI-modellek viselkedését — írja a MarkTechPost. Ez a probléma akkor is felmerülhet, ha az adatok, a folyamatok vagy a logika változatlanok maradnak.
Mielőtt egy modell feldolgozná a szöveget, token ID-kké alakítja azt. Már a szóközök, sortörések vagy írásjelek apró eltérései is teljesen más token-szekvenciákat eredményezhetnek. Ez a tokenizációs drift lényege: a felületi változások a token-tér egy másik régiójába tolják a bemenetet, ami kiszámíthatatlan viselkedésbeli eltolódásokhoz vezet.
A hatás mélyebbre nyúlik, mint pusztán a token ID-k. Az instrukció-finomhangolás során a modellek nemcsak a feladatokat, hanem azok prezentálási struktúráját is megtanulják, beleértve a specifikus elválasztókat, előtagokat és formázási mintákat. Ha a prompt eltér ezektől a megtanult mintáktól, a modell már nem a számára ismerős eloszlásban működik.
Gyakorlati példák és megoldások
A MarkTechPost a GPT-2 tokenizáló segítségével mutatja be, hogyan befolyásolják az apró formázási változások a tokeneket. A GPT-2 tokenizáló ugyanazt a Byte-Pair Encoding sémát használja, mint a modern modellek, például a GPT-4, LLaMA és Mistral. A tesztek során kiderült, hogy még egy vezető szóköz is teljesen más token ID-t eredményez, és egyes szavak szóköz nélkül több tokenre bomlanak, ami eltérő szekvenciahosszúságot és figyelmi számításokat eredményez.
A jelenség mérésére egy egyszerű metrikát is kidolgoztak. A megoldásként egy könnyű prompt-optimalizálási ciklus bevezetését javasolják, amely biztosítja a bemenetek konzisztens és megbízható formátumát. Ez segíthet fenntartani a modell teljesítményét a GPT-4, LLaMA és Mistral esetében is.