Félakkora modell is biztonságos marad az OPSA módszerrel — csökken a "biztonsági adó"
A nyelvi modellek biztonságosabbá tétele eddig gyakran a logikai képességek romlásával járt, ezt a kompromisszumot nevezték "biztonsági adónak" — most egy új módszer enyhítheti a problémát.

A nagy nyelvi modellek (LLM) biztonsági finomhangolása során gyakran felmerül egy dilemma: a káros lekérdezésekkel szembeni ellenállás növelése a modell érvelési képességének rovására megy. Ezt a jelenséget "biztonsági adóként" emlegetik a szakértők — írja az arXiv-on megjelent új kutatás.
A probléma egyik fő oka az úgynevezett eloszlási eltérés: a felügyelt finomhangolás során a modelleket emberi, külső modellek vagy rögzített, saját generálású adatok alapján képzik, ahelyett, hogy a modell saját működési mintáiból (policy) származó trajektóriákat használnának. Ezt a "off-policy" tréningből eredő eltérést azonosították a "biztonsági adó" második forrásaként a kutatók.
Az OPSA módszer lényege
A jelenség kezelésére az úgynevezett OPSA (On-Policy Self-Distillation for Safety Alignment) módszert javasolják. Az OPSA lényege, hogy a modell saját "kimeneteket" generál, majd egy fagyasztott, tanító (teacher) modell másolatától kap sűrű, tokenenkénti KL-szupervíziót. Ez a tanító modell egy speciális biztonsági kontextusra van kondicionálva, így biztosítva a biztonságosabb válaszokat.
A kontextus szerepe a biztonságban
Mivel a tanító modellnek biztonságosabbnak kell lennie, mint a mintavételezett tanuló (student) modell trajektóriája, a kutatók bevezettek egy új kritériumot, a "teacher flip rate"-et. Ez a mérőszám azt mutatja meg, hogy egy privilegizált kontextus milyen gyakran alakítja át a nem biztonságos válaszokat biztonságosakká. Ezt a jelzést használják a hatékony kontextusok felkutatására, amelyek aktiválják a kívánt biztonsági viselkedést.
Az OPSA módszerrel a kutatók célja, hogy csökkentsék az eloszlási eltérésből adódó "biztonsági adót", miközben megőrzik a modellek eredeti képességeit. A tanulmány arXiv:2605.15239v1 azonosítóval érhető el előnyomtatott formában.
Az OPSA eljárás segíthet abban, hogy a jövőbeli nyelvi modellek egyszerre legyenek erősebbek és biztonságosabbak, elkerülve a korábbi kompromisszumokat a betanítás során, például az arXiv:2605.15239v1 tanulmányban ismertetett kutatás szerint 2024-ben várható további fejlemények.