StoSignSGD: Új algoritmus oldja meg a SignSGD konvergencia-problémáját LLM-eknél

Új algoritmust fejlesztettek ki a nagy nyelvi modellek (LLM) betanításának javítására, amely a SignSGD módszer alapvető problémáját orvosolja — írja az ArXiv-en megjelent kutatás.

A SignSGD és a hasonló, előjel-alapú optimalizációs algoritmusok eddig is kiemelkedő teljesítményt mutattak elosztott tanulási környezetekben és alapmodellek betanításakor. Problémát jelentett azonban, hogy a SignSGD hajlamos volt divergálni a nem-sima célfüggvények esetén, amelyek gyakoriak a modern gépi tanulásban a ReLU, max-pooling és mixture-of-experts architektúrák miatt.

A kutatók a StoSignSGD algoritmusban strukturális sztochaszticitást injektálnak az előjel-operátorba, miközben fenntartják az elfogulatlan frissítési lépést. Konvex optimalizáció esetén az elméleti elemzés szerint a StoSignSGD szigorúan megoldja a SignSGD konvergencia-problémáit, és az alsó korlátnak megfelelő konvergencia sebességet ér el.

A nem-konvex, nem-sima optimalizáció még nagyobb kihívást jelent, de a StoSignSGD itt is javulást ígér. Az algoritmus új, általánosított stacionárius mértékeket vezet be, amelyek a korábbi definíciókat is magukban foglalják, ezzel is bizonyítva hatékonyságát.