MetaAdamW: önszabályozó optimalizálóval javul a mélytanulási modellek betanítása
A MetaAdamW a hagyományos adaptív optimalizálókkal ellentétben rétegenként és modulonként eltérő hiperparamétereket alkalmaz, ezzel finomhangolva a betanítási folyamatot.

Új optimalizálót fejlesztettek ki MetaAdamW néven, amely a paramétercsoportok közötti heterogén optimalizálási dinamikát figyelembe véve dinamikusan modulálja a tanulási rátákat és a súlycsökkenést — írja az ArXiv ML-en megjelent tanulmány.
A hagyományos adaptív optimalizálók, mint például az AdamW, egységes hiperparamétereket alkalmaznak az összes paramétercsoportra, figyelmen kívül hagyva a rétegek és modulok közötti eltérő optimalizálási igényeket. A MetaAdamW ezt a korlátot küszöböli ki egy önszabályozó mechanizmussal, amely egy könnyű Transformer enkódert használ.
A mélytanulás finomhangolása
Az önszabályozó modul betanításához a kutatók egy meta-tanulási célkitűzést vezettek be, amely a gradiens-igazítást, a veszteség csökkenését és a generalizációs rést kombinálja. Fontos újdonság a homoszkedasztikus bizonytalanság-súlyozás (HUW) kiterjesztése feladatspecifikus prioritásokkal, amelyek közvetlenül skálázzák a regularizációs kifejezéseket.
Optimális teljesítmény elérése
A MetaAdamW-t öt különböző feladaton tesztelték, ahol kiterjedt kísérletekkel bizonyították hatékonyságát. A rendszer a modellek betanítását és generalizációs képességét is javítja, mint például a 2024. március 10-én publikált eredményekben látható.