Vakfolt a LLM-ek bizonytalanságmérésében: nem észleli a magabiztos hallucinációkat
A jelenlegi módszerek a modell belső konzisztenciáját mérik, nem pedig a külső, ténybeli korrektséget, ami kritikus problémát jelent a nagy kockázatú területeken.

A nagyméretű nyelvi modellek (LLM) bizonytalanságmérése (Uncertainty Quantification, UQ) kulcsfontosságú biztonsági elemnek számít a nagy tétű alkalmazási területeken, ám egy új kutatás szerint a terület súlyos kategóriahibától szenved — írja az ArXiv-en megjelent tanulmány.
A kutatók érvelése szerint a mainstream UQ-módszerek valójában nem felügyelt klaszterezési algoritmusok. Ezek a megközelítések a modell generációinak belső konzisztenciáját számszerűsítik, nem pedig azok külső korrektségét. Ez azt jelenti, hogy a jelenlegi módszerek alapvetően vakok a ténybeli valóságra, és képtelenek észlelni az úgynevezett „magabiztos hallucinációkat”, amikor a modellek nagy bizonyossággal állítanak stabil, de téves válaszokat.
A bizonytalanság homályzónája
A belső állapotra való támaszkodásból három kritikus patológia is fakad. Az egyik ilyen a hiperparaméter-érzékenységi válság, amely veszélyessé teszi a telepítést. Ezenkívül a belső értékelési ciklus hamis biztonságérzetet kelthet a modellek telepítésekor, ami különösen aggasztó a kritikus felhasználási esetekben.
A pontatlanság törésvonala
A kutatók hangsúlyozzák, hogy a LLM-ek bizonytalanságmérésének fejlesztése elengedhetetlen ahhoz, hogy a jövőben valóban megbízható és biztonságos rendszereket építhessünk a mesterséges intelligencia területén, például az ArXiv 2024. márciusi jelentése szerint.