Frissítve: 3 órája·Ma: 1
Kutatás
AI által generált szöveg

DExperts módszerrel szüntethető meg teljesen a GPT-2 toxikus kimenete

A nagyméretű nyelvi modellek (LLM-ek) képzési adataikból szívják magukba a toxikus mintákat, ami káros kimenetekhez vezethet, de a DExperts ezt orvosolja.

DExperts módszerrel szüntethető meg teljesen a GPT-2 toxikus kimenete
Fotó: Blaz Erzetic / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A nagyméretű nyelvi modellek (LLM-ek) képzési adatai gyakran tartalmaznak toxikus mintákat, amelyek a modellekbe épülve „toxikus degenerációt” okoznak — írja az arXiv-on megjelent előnyomtatott tanulmány. Ez azt jelenti, hogy még ártalmatlan utasítások is káros kimeneteket generálhatnak, ami jelentős kockázatot jelent a valós alkalmazásokban.

A kutatók a DExperts (Decoding-time Experts) nevű következtetési idejű mérséklési technikát vizsgálták, amely a generálást irányítja anélkül, hogy a modellt újra kellene tanítani. Ez a módszer ígéretes megoldást kínál a biztonság és a modell hasznosságának fenntartására.

Hogy a mélységekbe pillantsunk, a kutatás során a GPT-2 modellek alap toxicitását mérték a RealToxicityPrompts adathalmaz segítségével. Ezután implementálták és értékelték a DExperts módszert az explicit toxicitás enyhítésére. Végül a módszert stressztesztelték az implicit gyűlöletbeszéddel szemben is.

A biztonság sziklája

A részletes kvantitatív elemzés szerint a GPT-2 alapmodell generációinak körülbelül 4,2%-a esik a „veszélyzónába” (0,5 feletti toxicitási pontszám) még nem toxikus utasítások esetén is. A DExperts módszerrel azonban a kutatók 100%-os biztonsági rátát értek el a RealToxicityPrompts benchmarkokon, ami az alapvető hibaráta teljes kiküszöbölését jelenti.

A toxikus kimenetek végleges búcsúja

A tanulmány szerint a DExperts sikeresen replikálható és validálható, teljesen megszüntetve a GPT-2 modellek toxikus kimeneteit a RealToxicityPrompts adathalmazzal tesztelve, 2024. január elsejéig terjedő időszakban.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom