Kutatás2026. máj. 13.frissítve: 06:10

9-szer gyorsabb következtetést ígér a Hebatron, 73,8%-os héber érveléssel

A modell mindössze 3 milliárd paramétert aktivál előremenő passzonként egy 30 milliárd paraméteres architektúrából, jelentősen növelve a sebességet.

Fotó: National Institute of Allergy and Infectious Diseases / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 13.

Megosztás

Új, héber nyelvre specializált, nyílt forráskódú nagyméretű nyelvi modellt mutatott be a Hebatron, amely az NVIDIA Nemotron-3 ritka Mixture-of-Experts (MoE) architektúrájára épül — derül ki az arXiv előnyomtatott tanulmányából.

A Hebatron a Nemotron-3 architektúra első nyelvre specifikus adaptációja, és egyben az első nyílt forráskódú MoE modell a maga nemében. A kutatók szerint a modell 73,8%-os héber érvelési átlagot ér el, felülmúlva a DictaLM-3.0-24B-Thinking modellt (68,9%), és versenyképes marad a Gemma-3-27B-IT-vel a GSM8K-HE és Israeli Trivia teszteken.

A sebesség és a hatékonyság kulcsa

A modell betanítása egy háromfázisú, „könnyűtől a nehézig” haladó tantervvel történt, folyamatos felejtésgátló rögzítéssel. Ezt követően 2 millió kétnyelvű héber-angol mintán végeztek felügyelt finomhangolást. A kutatók kiemelték, hogy már a tanterv sorrendje is 3 pontos összesített teljesítményteszt-növekedést eredményezett a fordított konfigurációhoz képest.

A Hebatron hatékonyságának titka

A Hebatron egyik legfontosabb előnye a hatékonysága. A modell körülbelül 9-szer nagyobb következtetési átviteli sebességet biztosít natív kontextushosszúságok esetén, akár 65 536 tokenig, miközben egy előremenő passz során csak 3 milliárd paramétert aktivál egy 30 milliárd paraméteres modellből.

A Hebatron modell az NVIDIA Nemotron-3 architektúrájának köszönhetően 2024. március 15-én elérhető lesz a nyilvánosság számára a Hebatron oldalán, ahol a felhasználók letölthetik és integrálhatják a modellt saját alkalmazásaikba.

tetszett a cikk? oszd meg →

Megosztás