Frissítve: 15 perce·Ma: 49
Modellek & LLM
AI által generált szöveg

Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3

Az Olmo Hybrid modell 7 milliárd paramétert tartalmaz, és három kísérleti, előzetesen betanított ellenőrzőpontot tartalmaz — kezdve egy Instruct modellal, egy érvelési modell következik hamarosan.

Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3
Fotó: Immo Wegmann / Unsplash
Forrás: InterconnectsSzerző: AI Forradalom szerk.
Megosztás

Az Olmo Hybrid modell kifejlesztését egy hosszú távú kutatási projekt vezette, amelynek célja a hibrid modellek elméleti alapjainak feltárása. A modell 7 milliárd paramétert tartalmaz, és három kísérleti, előzetesen betanított ellenőrzőpontot tartalmaz — kezdve egy Instruct modellal.

A hibrid modellek azért hatékonyak, mert a rekurrens neurális hálózat (RNN) modulokat a hagyományos figyelmi mechanizmusokkal kombinálják. Ez a megközelítés lehetővé teszi, hogy a modell a korábbi információkat összegzi, és a következő tokenek előrejelzéséhez felhasználja.

A hibrid modellek fejlesztése

Az Olmo Hybrid modell a Gated DeltaNet (GDN) megközelítést használja, amely a Mamba és a Striped Hyena modellekhez hasonlóan a figyelmi mechanizmusokat és a RNN modulokat kombinálja. A kutatók különböző architektúrákat hasonlítottak össze, és megállapították, hogy a hibrid modellek jobban teljesítenek, mint a standard transzformerek.

A modell teljesítménye

Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3, és a pretraining folyamata során jelentős előrelépést mutatott. A modell a Tulu 2 és a Tulu 3 modelleken alapul, és az OpenThoughts 3 modellből származó receptet használja.

Az Olmo Hybrid modell március végén kerül nyilvánosságra az Interconnects által, és a modell fejlesztése során a kutatók a GDN megközelítést használták, amely a figyelmi mechanizmusokat és a RNN modulokat kombinálja, így a modell 2-szer hatékonyabban tanul, mint az Olmo 3, és 7 milliárd paramétert tartalmaz.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom