Kutatás2026. máj. 2.frissítve: 22:30

A nGPT modell nem skálázódott, a νGPT már átviszi a tanulási rátát

A Normalized Transformer (nGPT) modell hiába gyorsítja a betanítást, a tanulási ráta átvitele nem működött a modellméretek között, ezt korrigálja az új νGPT.

Fotó: Mathew Schwartz / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 2.

Megosztás

Új paraméterezést kapott a Normalized Transformer, vagy nGPT modell, amely a νGPT nevet viseli. A változtatás célja, hogy megoldja a nGPT egyik korábbi hiányosságát: nem mutatta a tanulási ráta átvitelét a modell dimenziója és a token horizont között — írja az ArXiv ML tanulmánya.

A nGPT korábban lenyűgöző betanítási sebességet ért el, és nem igényelt súlycsökkenést vagy tanulási ráta felmelegítést, ami a hagyományos transzformer modelleknél bevett gyakorlat. A tanulmány szerint a nGPT explicit módon skálázódó hiperparaméterekkel rendelkezett, de a gyakorlatban mégsem vitte át a tanulási rátát a különböző modellméretek között.

A kutatók a problémát numerikus kísérletek és az úgynevezett alignment exponensek elvének alkalmazásával orvosolták. A $\mu$P megközelítést módosítva egy új nGPT paraméterezést hoztak létre, a νGPT-t. Ez a modell széles körű empirikus validáció során bizonyította, hogy a tanulási ráta átvitele működik a szélesség, mélység és token horizont dimenziókban, teljesítményvesztés nélkül.

tetszett a cikk? oszd meg →

Megosztás