Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3
Az Olmo Hybrid modell 7 milliárd paramétert tartalmaz, és három kísérleti, előzetesen betanított ellenőrzőpontot tartalmaz — kezdve egy Instruct modellal, egy érvelési modell következik hamarosan.

Az Olmo Hybrid modell kifejlesztését egy hosszú távú kutatási projekt vezette, amelynek célja a hibrid modellek elméleti alapjainak feltárása. A modell 7 milliárd paramétert tartalmaz, és három kísérleti, előzetesen betanított ellenőrzőpontot tartalmaz — kezdve egy Instruct modellal.
A hibrid modellek azért hatékonyak, mert a rekurrens neurális hálózat (RNN) modulokat a hagyományos figyelmi mechanizmusokkal kombinálják. Ez a megközelítés lehetővé teszi, hogy a modell a korábbi információkat összegzi, és a következő tokenek előrejelzéséhez felhasználja.
A hibrid modellek fejlesztése
Az Olmo Hybrid modell a Gated DeltaNet (GDN) megközelítést használja, amely a Mamba és a Striped Hyena modellekhez hasonlóan a figyelmi mechanizmusokat és a RNN modulokat kombinálja. A kutatók különböző architektúrákat hasonlítottak össze, és megállapították, hogy a hibrid modellek jobban teljesítenek, mint a standard transzformerek.
A modell teljesítménye
Az Olmo Hybrid modell 2-szer hatékonyabban tanul, mint az Olmo 3, és a pretraining folyamata során jelentős előrelépést mutatott. A modell a Tulu 2 és a Tulu 3 modelleken alapul, és az OpenThoughts 3 modellből származó receptet használja.
Az Olmo Hybrid modell március végén kerül nyilvánosságra az Interconnects által, és a modell fejlesztése során a kutatók a GDN megközelítést használták, amely a figyelmi mechanizmusokat és a RNN modulokat kombinálja, így a modell 2-szer hatékonyabban tanul, mint az Olmo 3, és 7 milliárd paramétert tartalmaz.