A 3-bites kvantálás 21%-kal növeli a LLM-ek elfogultságát
A kvantálás célja a LLM-ek költségeinek és memóriaterületének csökkentése, de egy új tanulmány rávilágít, hogy ez a folyamat jelentős minőségi kompromisszumokkal járhat az elfogultság terén.

A nagy nyelvi modelleket (LLM) gyakran tömörítik utólagos kvantálással, hogy csökkentsék a futtatási költségeket és a memóriaterületet a felhőalapú és peremes telepítések során. Ennek a tömörítésnek a modell minőségére gyakorolt hatása azonban eddig kevéssé volt ismert — írja egy friss, előnyomtatott formában megjelent tanulmány az arXiv-on.
A kutatók szerint a korábbi vizsgálatok jellemzően csak két állapotot hasonlítottak össze (teljes precizitás vs. egyetlen kvantált változat), aggregált elfogultsági metrikákra támaszkodtak, és csupán egy modellcsaládot értékeltek. Ez megnehezítette annak megkülönböztetését, hogy a minőségromlás fokozatos-e, vagy küszöbértékhez kötött biztonsági hibákról van szó.
A kvantálás árnyoldalai
A mostani empirikus tanulmány három utasításra finomhangolt modellt (Qwen2.5-7B, Mistral-7B, Phi-3.5-mini) vizsgált öt precíziós szinten, a BF16-tól egészen a 3-bites kvantálásig. Összesen 12 148 BBQ elfogultsági teljesítményteszt elemet elemeztek, öt különböző véletlenszerű kiindulási ponttal, ami 911 100 következtetési rekordot eredményezett.
Elfogultság a mesterséges intelligenciában
Az eredmények aggasztó képet festenek: a 3-bites kvantálás 6-21%-ban okozott új sztereotip viselkedést korábban elfogulatlan elemeknél. Ez az elfogultság megjelenése egyértelmű dózis-válasz mintázatot követ, amit logisztikai regresszióval is megerősítettek a kutatók.
A felfedezés kritikus szempont a kvantált modellek fejlesztésénél és telepítésénél, különösen az etikai és biztonsági megfontolások miatt. A kutatások a Mistral-7B és Phi-3.5-mini modelleknél 2024-ben folytatódnak.