MetaAdamW: önszabályozó optimalizálóval javul a mélytanulási modellek betanítása

Új optimalizálót fejlesztettek ki MetaAdamW néven, amely a paramétercsoportok közötti heterogén optimalizálási dinamikát figyelembe véve dinamikusan modulálja a tanulási rátákat és a súlycsökkenést — írja az ArXiv ML-en megjelent tanulmány.

A hagyományos adaptív optimalizálók, mint például az AdamW, egységes hiperparamétereket alkalmaznak az összes paramétercsoportra, figyelmen kívül hagyva a rétegek és modulok közötti eltérő optimalizálási igényeket. A MetaAdamW ezt a korlátot küszöböli ki egy önszabályozó mechanizmussal, amely egy könnyű Transformer enkódert használ.

A mélytanulás finomhangolása

Az önszabályozó modul betanításához a kutatók egy meta-tanulási célkitűzést vezettek be, amely a gradiens-igazítást, a veszteség csökkenését és a generalizációs rést kombinálja. Fontos újdonság a homoszkedasztikus bizonytalanság-súlyozás (HUW) kiterjesztése feladatspecifikus prioritásokkal, amelyek közvetlenül skálázzák a regularizációs kifejezéseket.

Optimális teljesítmény elérése

A MetaAdamW-t öt különböző feladaton tesztelték, ahol kiterjedt kísérletekkel bizonyították hatékonyságát. A rendszer a modellek betanítását és generalizációs képességét is javítja, mint például a 2024. március 10-én publikált eredményekben látható.