Adam optimalizálóval gyorsabban tanulnak a ritka tokenek a nyelvi modellekben
A modern nyelvi modellek képzése során a tokenek eloszlása rendkívül egyenetlen, ami eddig rejtett optimalizációs kihívást jelentett, de az Adam ezt orvosolja.

A modern nyelvi modellek betanítása során a tokenek eloszlása rendkívül egyenetlen, ami komoly optimalizációs kihívást jelent. A gyakori szavakhoz tartozó paraméterek folyamatosan frissülnek, míg a ritka, de fontos tokenek súlyai akár több ezer lépésen keresztül sem kapnak érdemi jelet — írja az AI Shorts, a MarkTechPost felületén megjelent cikkében.
A hagyományos Stochastic Gradient Descent (SGD) optimalizáló minden paraméterhez azonos tanulási rátát használ. Ez azt eredményezi, hogy a gyakran frissülő súlyok gyorsan konvergálnak, míg a ritka tokenekhez tartozó súlyok gyakran a véletlenszerű inicializálási értékek közelében maradnak.
A ritka tokenek tanulásának felgyorsítása
Bár az Adam optimalizálót gyakran a SGD lendülettel kiegészített változatának tekintik, a gyakorlatban a legfontosabb jellemzője a variancia normalizáció. Az Adam minden egyes paraméterhez külön-külön követi a korábbi gradiens statisztikákat, és automatikusan igazítja a frissítési méreteket aszerint, hogy milyen gyakran érkezett megbízható gradiens információ.
Azok a paraméterek, amelyek ritkán kapnak frissítést, arányosan nagyobb effektív tanulási rátát kapnak. Ez lehetővé teszi az alulreprezentált jellemzők (például a ritka tokenek) számára, hogy sokkal gyorsabban tanuljanak, mint a hagyományos SGD-vel.
Tanulási folyamatok összehasonlítása
A jelenség demonstrálására egy kontrollált NumPy kísérletet végeztek. Egy hat tokenből álló szókincset használtak, amelynek gyakorisága négy nagyságrendet ölelt fel – a szinte minden kötegben megjelenő tokenektől az olyanokig, amelyek csak az esetek 0,1%-ában fordultak elő. Két alkalommal képezték ugyanazt a lineáris modellt, egyszer SGD-vel, egyszer Adam-mel, miközben minden cél súlyt azonosra állítottak, méghozzá 1.0-ra.
Az eredmények egyértelműen megmutatták, hogy az Adam optimalizálóval az alulreprezentált jellemzők (ritka tokenek) sokkal gyorsabban tanultak, mint a hagyományos SGD esetében. A kísérletben használt tokenek között szerepelt a „the”, „model”, „embedding”, „tokenization”, „xenobiotic” és „thalweg”, amelyek megjelenési valószínűségei 0,95 és 0,001 között mozogtak a NumPy tesztben, 2023. decemberben publikált eredmények szerint.