ÉlőUtoljára: 1 órájaMa: 25
Kutatásfrissítve: 20:30

Félakkora modell is érti a kontextust: az OpenMythos feltárja a Claude Mythos titkát

Az OpenMythos projekt feltárta az Anthropic Claude Mythos architektúrájának titkát, és egy új, nyílt forráskódú modellt hozott létre, amely kevesebb paraméterrel is hasonló teljesítményt ér el. A projekt 2024-ben indult és most publikálta az eredményeit.

Félakkora modell is érti a kontextust: az OpenMythos feltárja a Claude Mythos titkát
Fotó: Fotó: Brett Jordan / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

Az Anthropic sosem hozott nyilvánosságra technikai leírást a Claude Mythos modelljéről, ez azonban nem akadályozta meg a kutatókat az elméletek gyártásában. Kye Gomez, az OpenMythos projekt vezetője most egy ambiciózus, első elveken alapuló elméleti rekonstrukciót tett közzé PyTorch-ban, amely a Claude Mythos lehetséges architektúráját mutatja be — írja a MarkTechPost.

A projekt nem egy kiszivárgott modell, finomhangolás vagy desztilláció. Egy hipotézisről van szó, amelyet kódban valósítottak meg, és amely elég specifikus ahhoz, hogy ellenőrizhető legyen.

A Claude Mythos egy Recurrent-Depth Transformer?

Az OpenMythos feltételezése szerint a Claude Mythos az úgynevezett Recurrent-Depth Transformer (RDT) architektúrák, más néven Looped Transformer modellek osztályába tartozik. Ez a koncepció jelentősen eltér a hagyományos Transformer-struktúráktól.

Míg a GPT, LLaMA vagy Mistral modellekben az input egyedi, egymás utáni rétegeken halad át, mindegyik saját súlyokkal, addig a RDT-k egy rögzített súlykészletet alkalmaznak iteratívan, több cikluslépésen keresztül egyetlen előremenő passzban. Ez azt jelenti, hogy ugyanazokat a súlyokat többször is futtatják. A „gondolkodási” mélység nem a tárolt paraméterek számától, hanem az inferencia során futtatott iterációk számától függ.

Az OpenMythos architektúra három részből áll: Prelude, Recurrent Block és Coda. A Prelude és Coda standard Transformer rétegek, amelyek egyszer futnak le. A Recurrent Block a számítási mag, amelyet akár 16-szor is megismételnek. Minden cikluslépésben a rejtett állapot frissül, és az előző rejtett állapot, valamint a Prelude-ból származó kódolt bemenet arányát tanult mátrixok szabályozzák.

A Recurrent Blockban található FFN (Feed-Forward Network) helyett egy Mixture-of-Experts (MoE) réteget alkalmaznak, amely a DeepSeekMoE tervezését követi. Ez a megközelítés lehetővé teszi, hogy a router minden ciklusmélységben különböző szakértői részhalmazokat válasszon ki, így minden iteráció számításilag eltérő, annak ellenére, hogy ugyanazokat az alapsúlyokat használja. A MoE a tartományi szélességet, a ciklusok pedig a gondolkodási mélységet biztosítják.

Az OpenMythos projekt szerint a 770 millió paraméteres modell állítólag megegyezik egy 1,3 milliárd paraméteres standard Transformer teljesítményével, a MarkTechPost beszámolója szerint.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom