Frissítve: 1 órája·Ma: 9
Kutatás
AI által generált szöveg

A nGPT modell nem skálázódott, a νGPT már átviszi a tanulási rátát

A Normalized Transformer (nGPT) modell hiába gyorsítja a betanítást, a tanulási ráta átvitele nem működött a modellméretek között, ezt korrigálja az új νGPT.

A nGPT modell nem skálázódott, a νGPT már átviszi a tanulási rátát
Fotó: Harrison Broadbent / Unsplash
Forrás: ArXiv MLSzerző: AI Forradalom szerk.
Megosztás

Új paraméterezést kapott a Normalized Transformer, vagy nGPT modell, amely a νGPT nevet viseli. A változtatás célja, hogy megoldja a nGPT egyik korábbi hiányosságát: nem mutatta a tanulási ráta átvitelét a modell dimenziója és a token horizont között — írja az ArXiv ML tanulmánya.

A nGPT korábban lenyűgöző betanítási sebességet ért el, és nem igényelt súlycsökkenést vagy tanulási ráta felmelegítést, ami a hagyományos transzformer modelleknél bevett gyakorlat. A tanulmány szerint a nGPT explicit módon skálázódó hiperparaméterekkel rendelkezett, de a gyakorlatban mégsem vitte át a tanulási rátát a különböző modellméretek között.

A kutatók a problémát numerikus kísérletek és az úgynevezett alignment exponensek elvének alkalmazásával orvosolták. A $\mu$P megközelítést módosítva egy új nGPT paraméterezést hoztak létre, a νGPT-t. Ez a modell széles körű empirikus validáció során bizonyította, hogy a tanulási ráta átvitele működik a szélesség, mélység és token horizont dimenziókban, teljesítményvesztés nélkül.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom