Linear probera épülő elnyomás felfedi a döntési határt

A kutatók a biztonság‑orientált nyelvi modellekben a megtagadási reakciók csökkentésére eddig alkalmazott ablációs módszerek mögött rejlő mechanizmust vizsgálták — írja az arXiv.

Latens‑tér eváziós támadás

Az új keret szerint a megtagadási viselkedés elnyomása a modell belső reprezentációinak irányításával érhető el, amelyet a kutatók latens‑tér eváziós támadásnak neveznek.

Lineáris probe és döntési határ

Az előző módszerek által használt "difference‑in‑means" irányt a kutatók lineáris probe‑ként definiálják, amely elválasztja a megtagadott és a válaszadó promptokat; az abláció ekkor pontosan a probe döntési határára vetíti a reprezentációt, azaz minimum‑bizalomú eváziót hajt végre.

Korlátok

Úgy tűnik, az evázió a döntési határnál áll meg, ami azt jelenti, hogy a módszer nem tudja meghaladni ezt a határt – a szerzők ezt a korlátot hangsúlyozzák.

AI‑biztonsági következmények

A megközelítés magyarázatot ad a korábbi ablációs technikák sikerére, ugyanakkor rámutat arra, hogy a biztonság‑orientált modellek finomhangolásához a döntési határ pontosabb kezelése szükséges.

A preprint 2026 májusában jelent meg az arXiv‑en.