Frissítve: 3 órája·Ma: 7
Modellek & LLM
AI által generált szöveg

EMO moduláris MoE modell csak 12,5%-os szakértőhasználattal közel teljesítményt ér el

A teljes modell teljesítményének közel 99%-át megőrizve az EMO csak a szakértők 12,5%-át aktiválja.

EMO moduláris MoE modell csak 12,5%-os szakértőhasználattal közel teljesítményt ér el
Fotó: Patrik Kernstock / Unsplash
Forrás: Hetzner: Allen AI (AI2)Szerző: AI Forradalom szerk.
Megosztás

1B aktív, 14B összes paraméterrel rendelkező EMO modellt egy trillió tokenen tanították — írja az AI2 Share Models blog.

Modularitás a dokumentumhatárokból

Dokumentumhatárokat gyenge felügyeleti jelként használva a router a tokeneket egy közös szakértőcsoportba irányítja — az AI2 szerint.

Szakértők szelektív használata

Csak a szakértők 12,5%-át aktiválva az EMO közel a teljes modell teljesítményét tartja, míg egy hagyományos MoE ekkor jelentős teljesítménycsökkenést mutat — az AI2 közölte.

Memória‑ és számítási költségek tekintetében a szelektív szakértőhasználat jelentős megtakarítást eredményez, ami rugalmasabb telepítést tesz lehetővé.

Globális terheléskiegyenlítéssel a dokumentumok közötti szakértőkihasználás kiegyensúlyozott, a pool méretét pedig véletlenszerűen mintázzák a túlilleszkedés elkerülése érdekében.

Az EMO május 8-án vált elérhetővé az AI2 nyilvános modellkönyvtárában, 14B paraméterrel és 1B aktív szakértővel, az AI2 Share Models blogon olvasható részletek szerint.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom