A késői rétegek rontják a nyílt LLM-ek tagadáskezelését — belsőleg mégis értik
A nyílt forráskódú nyelvi modellek gyakran hibáznak a tagadó kérdésekre adott válaszoknál, noha belsőleg képesek lennének a helyes feldolgozásra.

Bár a nyílt forráskódú nagyméretű nyelvi modellek (LLM-ek) sokszor tévesen válaszolnak tagadást tartalmazó kérdésekre, belső komponenseik valójában helyesen dolgozzák fel a tagadást — állítja egy friss, előnyomtatott formában megjelent tanulmány az arXiv-on.
A kutatók szerint a modellek gyenge pontossága a késői rétegek figyelmi mechanizmusainak tudható be, amelyek egyszerűbb „parancsikonokat” részesítenek előnyben. Ezeknek a moduloknak az eltávolítása jelentősen javítja a tagadással kapcsolatos kérdésekre adott válaszok pontosságát.
A tagadás feldolgozásának rejtett tánca
A tanulmány két fő mechanizmust azonosított a tagadás feldolgozásában. Egyrészt a modellek figyelmi fejeket használnak, amelyek elnyomják a tagadott fogalomhoz kapcsolódó elemeket. Másrészt közvetlenül építenek fel reprezentációkat a teljes negatív kifejezésekre, például a „nem gáz” kifejezést folyékony vagy szilárd halmazállapotot jelölő vektorként értelmezik.
A modellek belső működésének feltárása
A Mistral-7B és Llama-3.1-8B modelleken végzett megfigyelési és ok-okozati értelmezési technikák azt mutatják, hogy a modellek mindkét mechanizmust alkalmazzák. A vizsgálat 2024. február 10-én zárult le, a Llama-3.1-8B modell esetében 87%-os pontosságot értek el a tagadással kapcsolatos kérdésekben.