Kutatás2026. máj. 16.frissítve: 08:50

DExperts módszerrel szüntethető meg teljesen a GPT-2 toxikus kimenete

A nagyméretű nyelvi modellek (LLM-ek) képzési adataikból szívják magukba a toxikus mintákat, ami káros kimenetekhez vezethet, de a DExperts ezt orvosolja.

Fotó: Blaz Erzetic / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 16.

Megosztás

A nagyméretű nyelvi modellek (LLM-ek) képzési adatai gyakran tartalmaznak toxikus mintákat, amelyek a modellekbe épülve „toxikus degenerációt” okoznak — írja az arXiv-on megjelent előnyomtatott tanulmány. Ez azt jelenti, hogy még ártalmatlan utasítások is káros kimeneteket generálhatnak, ami jelentős kockázatot jelent a valós alkalmazásokban.

A kutatók a DExperts (Decoding-time Experts) nevű következtetési idejű mérséklési technikát vizsgálták, amely a generálást irányítja anélkül, hogy a modellt újra kellene tanítani. Ez a módszer ígéretes megoldást kínál a biztonság és a modell hasznosságának fenntartására.

Hogy a mélységekbe pillantsunk, a kutatás során a GPT-2 modellek alap toxicitását mérték a RealToxicityPrompts adathalmaz segítségével. Ezután implementálták és értékelték a DExperts módszert az explicit toxicitás enyhítésére. Végül a módszert stressztesztelték az implicit gyűlöletbeszéddel szemben is.

A biztonság sziklája

A részletes kvantitatív elemzés szerint a GPT-2 alapmodell generációinak körülbelül 4,2%-a esik a „veszélyzónába” (0,5 feletti toxicitási pontszám) még nem toxikus utasítások esetén is. A DExperts módszerrel azonban a kutatók 100%-os biztonsági rátát értek el a RealToxicityPrompts benchmarkokon, ami az alapvető hibaráta teljes kiküszöbölését jelenti.

A toxikus kimenetek végleges búcsúja

A tanulmány szerint a DExperts sikeresen replikálható és validálható, teljesen megszüntetve a GPT-2 modellek toxikus kimeneteit a RealToxicityPrompts adathalmazzal tesztelve, 2024. január elsejéig terjedő időszakban.

tetszett a cikk? oszd meg →

Megosztás