EMO moduláris MoE modell csak 12,5%-os szakértőhasználattal közel teljesítményt ér el
A teljes modell teljesítményének közel 99%-át megőrizve az EMO csak a szakértők 12,5%-át aktiválja.

1B aktív, 14B összes paraméterrel rendelkező EMO modellt egy trillió tokenen tanították — írja az AI2 Share Models blog.
Modularitás a dokumentumhatárokból
Dokumentumhatárokat gyenge felügyeleti jelként használva a router a tokeneket egy közös szakértőcsoportba irányítja — az AI2 szerint.
Szakértők szelektív használata
Csak a szakértők 12,5%-át aktiválva az EMO közel a teljes modell teljesítményét tartja, míg egy hagyományos MoE ekkor jelentős teljesítménycsökkenést mutat — az AI2 közölte.
Memória‑ és számítási költségek tekintetében a szelektív szakértőhasználat jelentős megtakarítást eredményez, ami rugalmasabb telepítést tesz lehetővé.
Globális terheléskiegyenlítéssel a dokumentumok közötti szakértőkihasználás kiegyensúlyozott, a pool méretét pedig véletlenszerűen mintázzák a túlilleszkedés elkerülése érdekében.
Az EMO május 8-án vált elérhetővé az AI2 nyilvános modellkönyvtárában, 14B paraméterrel és 1B aktív szakértővel, az AI2 Share Models blogon olvasható részletek szerint.