DExperts módszerrel szüntethető meg teljesen a GPT-2 toxikus kimenete
A nagyméretű nyelvi modellek (LLM-ek) képzési adataikból szívják magukba a toxikus mintákat, ami káros kimenetekhez vezethet, de a DExperts ezt orvosolja.

A nagyméretű nyelvi modellek (LLM-ek) képzési adatai gyakran tartalmaznak toxikus mintákat, amelyek a modellekbe épülve „toxikus degenerációt” okoznak — írja az arXiv-on megjelent előnyomtatott tanulmány. Ez azt jelenti, hogy még ártalmatlan utasítások is káros kimeneteket generálhatnak, ami jelentős kockázatot jelent a valós alkalmazásokban.
A kutatók a DExperts (Decoding-time Experts) nevű következtetési idejű mérséklési technikát vizsgálták, amely a generálást irányítja anélkül, hogy a modellt újra kellene tanítani. Ez a módszer ígéretes megoldást kínál a biztonság és a modell hasznosságának fenntartására.
Hogy a mélységekbe pillantsunk, a kutatás során a GPT-2 modellek alap toxicitását mérték a RealToxicityPrompts adathalmaz segítségével. Ezután implementálták és értékelték a DExperts módszert az explicit toxicitás enyhítésére. Végül a módszert stressztesztelték az implicit gyűlöletbeszéddel szemben is.
A biztonság sziklája
A részletes kvantitatív elemzés szerint a GPT-2 alapmodell generációinak körülbelül 4,2%-a esik a „veszélyzónába” (0,5 feletti toxicitási pontszám) még nem toxikus utasítások esetén is. A DExperts módszerrel azonban a kutatók 100%-os biztonsági rátát értek el a RealToxicityPrompts benchmarkokon, ami az alapvető hibaráta teljes kiküszöbölését jelenti.
A toxikus kimenetek végleges búcsúja
A tanulmány szerint a DExperts sikeresen replikálható és validálható, teljesen megszüntetve a GPT-2 modellek toxikus kimeneteit a RealToxicityPrompts adathalmazzal tesztelve, 2024. január elsejéig terjedő időszakban.