A nGPT modell nem skálázódott, a νGPT már átviszi a tanulási rátát
A Normalized Transformer (nGPT) modell hiába gyorsítja a betanítást, a tanulási ráta átvitele nem működött a modellméretek között, ezt korrigálja az új νGPT.

Új paraméterezést kapott a Normalized Transformer, vagy nGPT modell, amely a νGPT nevet viseli. A változtatás célja, hogy megoldja a nGPT egyik korábbi hiányosságát: nem mutatta a tanulási ráta átvitelét a modell dimenziója és a token horizont között — írja az ArXiv ML tanulmánya.
A nGPT korábban lenyűgöző betanítási sebességet ért el, és nem igényelt súlycsökkenést vagy tanulási ráta felmelegítést, ami a hagyományos transzformer modelleknél bevett gyakorlat. A tanulmány szerint a nGPT explicit módon skálázódó hiperparaméterekkel rendelkezett, de a gyakorlatban mégsem vitte át a tanulási rátát a különböző modellméretek között.
A kutatók a problémát numerikus kísérletek és az úgynevezett alignment exponensek elvének alkalmazásával orvosolták. A $\mu$P megközelítést módosítva egy új nGPT paraméterezést hoztak létre, a νGPT-t. Ez a modell széles körű empirikus validáció során bizonyította, hogy a tanulási ráta átvitele működik a szélesség, mélység és token horizont dimenziókban, teljesítményvesztés nélkül.