Linear probera épülő elnyomás felfedi a döntési határt
Az arXiv‑en közzétett tanulmány szerzői a megtagadási viselkedés elnyomását latens‑tér eváziós támadásként modellezik.

A kutatók a biztonság‑orientált nyelvi modellekben a megtagadási reakciók csökkentésére eddig alkalmazott ablációs módszerek mögött rejlő mechanizmust vizsgálták — írja az arXiv.
Latens‑tér eváziós támadás
Az új keret szerint a megtagadási viselkedés elnyomása a modell belső reprezentációinak irányításával érhető el, amelyet a kutatók latens‑tér eváziós támadásnak neveznek.
Lineáris probe és döntési határ
Az előző módszerek által használt "difference‑in‑means" irányt a kutatók lineáris probe‑ként definiálják, amely elválasztja a megtagadott és a válaszadó promptokat; az abláció ekkor pontosan a probe döntési határára vetíti a reprezentációt, azaz minimum‑bizalomú eváziót hajt végre.
Korlátok
Úgy tűnik, az evázió a döntési határnál áll meg, ami azt jelenti, hogy a módszer nem tudja meghaladni ezt a határt – a szerzők ezt a korlátot hangsúlyozzák.
AI‑biztonsági következmények
A megközelítés magyarázatot ad a korábbi ablációs technikák sikerére, ugyanakkor rámutat arra, hogy a biztonság‑orientált modellek finomhangolásához a döntési határ pontosabb kezelése szükséges.
A preprint 2026 májusában jelent meg az arXiv‑en.