Modellek & LLM2026. ápr. 4.frissítve: 23:50

Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3

Az Olmo Hybrid modell 7 milliárd paramétert tartalmaz, és három kísérleti, előzetesen betanított ellenőrzőpontot tartalmaz — kezdve egy Instruct modellal, egy érvelési modell következik hamarosan.

Fotó: Fotó: Immo Wegmann / Unsplash

forrás: Interconnects·AI Forradalom szerk.·2026. április 4.

Megosztás

Az Olmo Hybrid modell kifejlesztését egy hosszú távú kutatási projekt vezette, amelynek célja a hibrid modellek elméleti alapjainak feltárása. A modell 7 milliárd paramétert tartalmaz, és három kísérleti, előzetesen betanított ellenőrzőpontot tartalmaz — kezdve egy Instruct modellal.

A hibrid modellek azért hatékonyak, mert a rekurrens neurális hálózat (RNN) modulokat a hagyományos figyelmi mechanizmusokkal kombinálják. Ez a megközelítés lehetővé teszi, hogy a modell a korábbi információkat összegzi, és a következő tokenek előrejelzéséhez felhasználja.

A hibrid modellek fejlesztése

Az Olmo Hybrid modell a Gated DeltaNet (GDN) megközelítést használja, amely a Mamba és a Striped Hyena modellekhez hasonlóan a figyelmi mechanizmusokat és a RNN modulokat kombinálja. A kutatók különböző architektúrákat hasonlítottak össze, és megállapították, hogy a hibrid modellek jobban teljesítenek, mint a standard transzformerek.

A modell teljesítménye

Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3, és a pretraining folyamata során jelentős előrelépést mutatott. A modell a Tulu 2 és a Tulu 3 modelleken alapul, és az OpenThoughts 3 modellből származó receptet használja.

Az Olmo Hybrid modell március végén kerül nyilvánosságra az Interconnects által, és a modell fejlesztése során a kutatók a GDN megközelítést használták, amely a figyelmi mechanizmusokat és a RNN modulokat kombinálja, így a modell 2-szer hatékonyabban tanul, mint az Olmo 3, és 7 milliárd paramétert tartalmaz.

tetszett a cikk? oszd meg →

Megosztás