Frissítve: 2 órája·Ma: 15
Kutatás
AI által generált szöveg

Félakkora modell is biztonságos marad az OPSA módszerrel — csökken a "biztonsági adó"

A nyelvi modellek biztonságosabbá tétele eddig gyakran a logikai képességek romlásával járt, ezt a kompromisszumot nevezték "biztonsági adónak" — most egy új módszer enyhítheti a problémát.

Félakkora modell is biztonságos marad az OPSA módszerrel — csökken a "biztonsági adó"
Fotó: National Institute of Allergy and Infectious Diseases / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

A nagy nyelvi modellek (LLM) biztonsági finomhangolása során gyakran felmerül egy dilemma: a káros lekérdezésekkel szembeni ellenállás növelése a modell érvelési képességének rovására megy. Ezt a jelenséget "biztonsági adóként" emlegetik a szakértők — írja az arXiv-on megjelent új kutatás.

A probléma egyik fő oka az úgynevezett eloszlási eltérés: a felügyelt finomhangolás során a modelleket emberi, külső modellek vagy rögzített, saját generálású adatok alapján képzik, ahelyett, hogy a modell saját működési mintáiból (policy) származó trajektóriákat használnának. Ezt a "off-policy" tréningből eredő eltérést azonosították a "biztonsági adó" második forrásaként a kutatók.

Az OPSA módszer lényege

A jelenség kezelésére az úgynevezett OPSA (On-Policy Self-Distillation for Safety Alignment) módszert javasolják. Az OPSA lényege, hogy a modell saját "kimeneteket" generál, majd egy fagyasztott, tanító (teacher) modell másolatától kap sűrű, tokenenkénti KL-szupervíziót. Ez a tanító modell egy speciális biztonsági kontextusra van kondicionálva, így biztosítva a biztonságosabb válaszokat.

A kontextus szerepe a biztonságban

Mivel a tanító modellnek biztonságosabbnak kell lennie, mint a mintavételezett tanuló (student) modell trajektóriája, a kutatók bevezettek egy új kritériumot, a "teacher flip rate"-et. Ez a mérőszám azt mutatja meg, hogy egy privilegizált kontextus milyen gyakran alakítja át a nem biztonságos válaszokat biztonságosakká. Ezt a jelzést használják a hatékony kontextusok felkutatására, amelyek aktiválják a kívánt biztonsági viselkedést.

Az OPSA módszerrel a kutatók célja, hogy csökkentsék az eloszlási eltérésből adódó "biztonsági adót", miközben megőrzik a modellek eredeti képességeit. A tanulmány arXiv:2605.15239v1 azonosítóval érhető el előnyomtatott formában.

Az OPSA eljárás segíthet abban, hogy a jövőbeli nyelvi modellek egyszerre legyenek erősebbek és biztonságosabbak, elkerülve a korábbi kompromisszumokat a betanítás során, például az arXiv:2605.15239v1 tanulmányban ismertetett kutatás szerint 2024-ben várható további fejlemények.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom