Kutatás2026. máj. 8.frissítve: 05:31

A késői rétegek rontják a nyílt LLM-ek tagadáskezelését — belsőleg mégis értik

A nyílt forráskódú nyelvi modellek gyakran hibáznak a tagadó kérdésekre adott válaszoknál, noha belsőleg képesek lennének a helyes feldolgozásra.

Fotó: P. L. / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 8.

Megosztás

Bár a nyílt forráskódú nagyméretű nyelvi modellek (LLM-ek) sokszor tévesen válaszolnak tagadást tartalmazó kérdésekre, belső komponenseik valójában helyesen dolgozzák fel a tagadást — állítja egy friss, előnyomtatott formában megjelent tanulmány az arXiv-on.

A kutatók szerint a modellek gyenge pontossága a késői rétegek figyelmi mechanizmusainak tudható be, amelyek egyszerűbb „parancsikonokat” részesítenek előnyben. Ezeknek a moduloknak az eltávolítása jelentősen javítja a tagadással kapcsolatos kérdésekre adott válaszok pontosságát.

A tagadás feldolgozásának rejtett tánca

A tanulmány két fő mechanizmust azonosított a tagadás feldolgozásában. Egyrészt a modellek figyelmi fejeket használnak, amelyek elnyomják a tagadott fogalomhoz kapcsolódó elemeket. Másrészt közvetlenül építenek fel reprezentációkat a teljes negatív kifejezésekre, például a „nem gáz” kifejezést folyékony vagy szilárd halmazállapotot jelölő vektorként értelmezik.

A modellek belső működésének feltárása

A Mistral-7B és Llama-3.1-8B modelleken végzett megfigyelési és ok-okozati értelmezési technikák azt mutatják, hogy a modellek mindkét mechanizmust alkalmazzák. A vizsgálat 2024. február 10-én zárult le, a Llama-3.1-8B modell esetében 87%-os pontosságot értek el a tagadással kapcsolatos kérdésekben.

tetszett a cikk? oszd meg →

Megosztás