Hatékonyabb gépi felejtést hoz a LLM-ekbe a DualOptim+ rendszer

Új optimalizációs rendszert, a DualOptim+-t fejlesztettek ki a CityU-MLO kutatói, amely jelentősen javítja a gépi felejtést a nagyméretű nyelvi modellekben (LLM) — írja az arXiv-on megjelent tanulmányukban.

A DualOptim+ egy alapállapotot vezet be a felejtési és megtartási célok közös reprezentációinak rögzítésére, valamint delta állapotokat az objektív-specifikus maradványok megőrzésére. Ez a megközelítés lehetővé teszi az optimalizáló számára, hogy adaptívan hidat képezzen a megosztott és szétkapcsolt állapotok között, a felejtési és megtartási gradiensek közötti iránykonfliktus alapján.

A kutatók bemutatták a DualOptim+ 8bit nevű kvantált változatot is. Ez a verzió csökkenti a memóriaigényt anélkül, hogy a teljesítmény romlana, ami kulcsfontosságú lehet a nagyobb modellek és korlátozott erőforrások esetén.

Kiterjedt kísérletek igazolják, hogy a DualOptim+ következetesen jobb kompromisszumot ér el a különböző célok között, beleértve a fiktív és valós felejtési feladatokat, a biztonsági igazítást és a többcélú tanulást — állítják a CityU-MLO szakértői. A rendszer kódja elérhető a CityU-MLO GitHub oldalán, a 2605.21539v1 azonosító alatt.