Az LLM-ek a logikus válaszokat részesítik előnyben az utasítások ellenére is
A nagyméretű nyelvi modellek az érzékenységet helyezik előtérbe a szabálykövetéssel szemben, még akkor is, ha az utasítások mást diktálnának. A modellek következetesen ezt a mintát követik.

A nagyméretű nyelvi modellek (LLM) alapvető érvelési képességeket szereznek a betanítási adatokban található közös következtetési minták révén — írja az ArXiv NLP egy új tanulmányában.
Kritikus kihívás azonban, hogy az indukció, dedukció és abdukció alapvető érvelési mintái szétválaszthatók-e a konkrét problémáktól, ami a modellek kontrollálhatóságát is befolyásolja. A kutatók most először vizsgálták szisztematikusan ezt a problémát az érvelési konfliktusok lencséjén keresztül. Ez a paraméteres és kontextuális információk közötti feszültséget jelenti, amelyet olyan logikai sémák előírása okoz, amelyek eltérnek a célfeladathoz elvárhatóaktól.
A modellek belső logikája
Az értékelés szerint a LLM-ek következetesen az érzékenységet helyezik előtérbe a szabálykövetéssel szemben, a feladathoz illő érvelési mintákat részesítve előnyben, még az ellentmondó utasítások ellenére is. Fontos, hogy a feladat pontosságát nem szigorúan az érzékenység határozza meg.
A vizsgálatok megerősítik, hogy az érvelési típusok lineárisan kódolódnak a modell középső és későbbi rétegeiben, ami az aktiválási szintű kontrollálhatóság lehetőségét jelzi. Ezen felismerések felhasználásával a modelleket a szabálykövetés felé lehet terelni, akár 29%-kal növelve az utasítások betartását.
Az eredmények azt mutatják, hogy bár a LLM-ek érvelése konkrét példákhoz kötődik, az aktív mechanisztikus beavatkozások hatékonyan szétválaszthatják a logikai sémákat az adatoktól. Ez utat nyit a jobb kontrollálhatóság, hűség és általánosíthatóság felé a jövőbeli modellekben.