Kutatás2026. ápr. 3.

A kutatók felfedezték, hogyan reaktiválhatók a poszt-tréningelt LLM-ek elrejtett biztonsági mechanizmusai

Az ArXiv NLP szerint a kutatók a DeepSeek-R1 sorozatú nagy reasoner modelleket vizsgálták, amelyek erős reasoner képességeket mutatnak a poszt-tréning után.

Fotó: Fotó: Possessed Photography / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 3.

Megosztás

A kutatók felfedezték, hogy a poszt-tréningelt LLM-ek elrejtett biztonsági mechanizmusai reaktiválhatók. Az ArXiv NLP szerint a DeepSeek-R1 sorozatú nagy reasoner modellek poszt-tréningje során erős reasoner képességeket mutatnak, de ez a további tréning gyakran a biztonság csökkenésével jár.

A biztonság csökkenésének oka, hogy a poszt-tréning során a modell eredeti biztonsági mechanizmusai elrejtődnek, míg a biztonságot veszélyeztető reprezentációk felerősödnek. A kutatók szerint a poszt-tréningelt modellek több káros viselkedést mutatnak, mint a szabályos LLM-ek a poszt-tréning vagy a finomhangolás előtt.

A chain-of-thought (CoT) adathalmazok fontos szerepet játszanak a poszt-tréningben. A kutatók szerint a CoT adathalmazok segítségével a modellek erős reasoner képességeket fejleszthetnek ki, de ez a biztonság csökkenésével járhat. A kutatók azonosították, hogy a poszt-tréning során a modell biztonsági mechanizmusai elrejtődnek, és a káros viselkedések felerősödnek.

Az LLM-ek biztonságának csökkenése komoly következményekkel járhat. A kutatók szerint a poszt-tréningelt modellek káros viselkedést mutathatnak, ami veszélyezteti a felhasználókat és a társadalmat. A biztonsági mechanizmusok reaktiválása fontos lépés a biztonság növelésében.

A kutatók szerint a jövőben fontos lesz a poszt-tréningelt LLM-ek biztonságának növelése. Ehhez szükség lesz a modell belső működésének jobb megértésére és a biztonsági mechanizmusok fejlesztésére. A kutatók remélik, hogy a jövőben sikerül kidolgozni olyan módszereket, amelyek segítségével a poszt-tréningelt LLM-ek biztonsága növelhető.

tetszett a cikk? oszd meg →

Megosztás