Új kétsávos keretrendszerrel szűri a LLM a megszokottól eltérő bemeneteket

Új kétsávos keretrendszert javasol az ArXiv NLP egy tanulmánya, amely hatékonyabban szűri a nagyméretű nyelvi modellek (LLM) számára szokatlan, úgynevezett „out-of-distribution” (OOD) bemeneteket. A kutatás szerint a jelenlegi OOD-észlelési módszerek, mint a CED, RAUQ és WildGuard, torzítva működnek a bemeneti szekvencia hossza miatt — írja az ArXiv NLP.

A probléma gyökere a LLM-ek figyelmi mechanizmusának (attention) bemeneti hossztól való függése, ami miatt az OOD-észlelési pontosság szinte véletlenszerűvé válik, ha a bemeneti hosszt kiegyenlítik. A nyers figyelmi entrópia, amelyet referenciaként használtak, szintén ezt a torzítást mutatja.

A valódi OOD-jelek azonosítására a kutatók egy kétsávos megközelítést javasolnak. Az egyik „sáv” az embeddingekre épül, amelyek a szöveg tartalmát rögzítik, így hatékonyan észlelik a témaeltéréseket. A másik „sáv” a feldolgozási trajektória, vagyis a rejtett állapotok rétegek közötti evolúciója, amely azt mutatja meg, hogyan dolgozza fel a modell a bemenetet.

Az egyes sávok relatív hatékonysága a „szókincs-átláthatóság” spektrumán változik. Az embedding alapú módszerek a szókincsben jól elkülönülő OOD-bemeneteknél működnek kiválóan, míg a trajektória-alapú jellemzők a rejtett szándékú bemeneteket képesek felismerni.