Félakkora modell is érti a kontextust: az OpenMythos feltárja a Claude Mythos titkát
Az OpenMythos projekt feltárta az Anthropic Claude Mythos architektúrájának titkát, és egy új, nyílt forráskódú modellt hozott létre, amely kevesebb paraméterrel is hasonló teljesítményt ér el. A projekt 2024-ben indult és most publikálta az eredményeit.

Az Anthropic sosem hozott nyilvánosságra technikai leírást a Claude Mythos modelljéről, ez azonban nem akadályozta meg a kutatókat az elméletek gyártásában. Kye Gomez, az OpenMythos projekt vezetője most egy ambiciózus, első elveken alapuló elméleti rekonstrukciót tett közzé PyTorch-ban, amely a Claude Mythos lehetséges architektúráját mutatja be — írja a MarkTechPost.
A projekt nem egy kiszivárgott modell, finomhangolás vagy desztilláció. Egy hipotézisről van szó, amelyet kódban valósítottak meg, és amely elég specifikus ahhoz, hogy ellenőrizhető legyen.
A Claude Mythos egy Recurrent-Depth Transformer?
Az OpenMythos feltételezése szerint a Claude Mythos az úgynevezett Recurrent-Depth Transformer (RDT) architektúrák, más néven Looped Transformer modellek osztályába tartozik. Ez a koncepció jelentősen eltér a hagyományos Transformer-struktúráktól.
Míg a GPT, LLaMA vagy Mistral modellekben az input egyedi, egymás utáni rétegeken halad át, mindegyik saját súlyokkal, addig a RDT-k egy rögzített súlykészletet alkalmaznak iteratívan, több cikluslépésen keresztül egyetlen előremenő passzban. Ez azt jelenti, hogy ugyanazokat a súlyokat többször is futtatják. A „gondolkodási” mélység nem a tárolt paraméterek számától, hanem az inferencia során futtatott iterációk számától függ.
Az OpenMythos architektúra három részből áll: Prelude, Recurrent Block és Coda. A Prelude és Coda standard Transformer rétegek, amelyek egyszer futnak le. A Recurrent Block a számítási mag, amelyet akár 16-szor is megismételnek. Minden cikluslépésben a rejtett állapot frissül, és az előző rejtett állapot, valamint a Prelude-ból származó kódolt bemenet arányát tanult mátrixok szabályozzák.
A Recurrent Blockban található FFN (Feed-Forward Network) helyett egy Mixture-of-Experts (MoE) réteget alkalmaznak, amely a DeepSeekMoE tervezését követi. Ez a megközelítés lehetővé teszi, hogy a router minden ciklusmélységben különböző szakértői részhalmazokat válasszon ki, így minden iteráció számításilag eltérő, annak ellenére, hogy ugyanazokat az alapsúlyokat használja. A MoE a tartományi szélességet, a ciklusok pedig a gondolkodási mélységet biztosítják.
Az OpenMythos projekt szerint a 770 millió paraméteres modell állítólag megegyezik egy 1,3 milliárd paraméteres standard Transformer teljesítményével, a MarkTechPost beszámolója szerint.