9-szer gyorsabb következtetést ígér a Hebatron, 73,8%-os héber érveléssel
A modell mindössze 3 milliárd paramétert aktivál előremenő passzonként egy 30 milliárd paraméteres architektúrából, jelentősen növelve a sebességet.

Új, héber nyelvre specializált, nyílt forráskódú nagyméretű nyelvi modellt mutatott be a Hebatron, amely a NVIDIA Nemotron-3 ritka Mixture-of-Experts (MoE) architektúrájára épül — derül ki az arXiv előnyomtatott tanulmányából.
A Hebatron a Nemotron-3 architektúra első nyelvre specifikus adaptációja, és egyben az első nyílt forráskódú MoE modell a maga nemében. A kutatók szerint a modell 73,8%-os héber érvelési átlagot ér el, felülmúlva a DictaLM-3.0-24B-Thinking modellt (68,9%), és versenyképes marad a Gemma-3-27B-IT-vel a GSM8K-HE és Israeli Trivia teszteken.
A sebesség és a hatékonyság kulcsa
A modell betanítása egy háromfázisú, „könnyűtől a nehézig” haladó tantervvel történt, folyamatos felejtésgátló rögzítéssel. Ezt követően 2 millió kétnyelvű héber-angol mintán végeztek felügyelt finomhangolást. A kutatók kiemelték, hogy már a tanterv sorrendje is 3 pontos összesített teljesítményteszt-növekedést eredményezett a fordított konfigurációhoz képest.
A Hebatron hatékonyságának titka
A Hebatron egyik legfontosabb előnye a hatékonysága. A modell körülbelül 9-szer nagyobb következtetési átviteli sebességet biztosít natív kontextushosszúságok esetén, akár 65 536 tokenig, miközben egy előremenő passz során csak 3 milliárd paramétert aktivál egy 30 milliárd paraméteres modellből.
A Hebatron modell a NVIDIA Nemotron-3 architektúrájának köszönhetően 2024. március 15-én elérhető lesz a nyilvánosság számára a Hebatron oldalán, ahol a felhasználók letölthetik és integrálhatják a modellt saját alkalmazásaikba.