Vakfolt a LLM-ek bizonytalanságmérésében: nem észleli a magabiztos hallucinációkat

A nagyméretű nyelvi modellek (LLM) bizonytalanságmérése (Uncertainty Quantification, UQ) kulcsfontosságú biztonsági elemnek számít a nagy tétű alkalmazási területeken, ám egy új kutatás szerint a terület súlyos kategóriahibától szenved — írja az ArXiv-en megjelent tanulmány.

A kutatók érvelése szerint a mainstream UQ-módszerek valójában nem felügyelt klaszterezési algoritmusok. Ezek a megközelítések a modell generációinak belső konzisztenciáját számszerűsítik, nem pedig azok külső korrektségét. Ez azt jelenti, hogy a jelenlegi módszerek alapvetően vakok a ténybeli valóságra, és képtelenek észlelni az úgynevezett „magabiztos hallucinációkat”, amikor a modellek nagy bizonyossággal állítanak stabil, de téves válaszokat.

A bizonytalanság homályzónája

A belső állapotra való támaszkodásból három kritikus patológia is fakad. Az egyik ilyen a hiperparaméter-érzékenységi válság, amely veszélyessé teszi a telepítést. Ezenkívül a belső értékelési ciklus hamis biztonságérzetet kelthet a modellek telepítésekor, ami különösen aggasztó a kritikus felhasználási esetekben.

A pontatlanság törésvonala

A kutatók hangsúlyozzák, hogy a LLM-ek bizonytalanságmérésének fejlesztése elengedhetetlen ahhoz, hogy a jövőben valóban megbízható és biztonságos rendszereket építhessünk a mesterséges intelligencia területén, például az ArXiv 2024. márciusi jelentése szerint.