Modellek & LLM2026. máj. 30.frissítve: 00:10

NVIDIA X-Token: 3.82 ponttal jobb a Llama-3-nál a tudás átadásában

A NVIDIA X-Token nevű új módszere 3.82 ponttal múlja felül a GOLD-ot a Llama-3.2-1B modellen, áthidalva a különböző tokenizátorok közötti különbségeket.

Fotó: Fotó: Christian Wiediger / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. május 30.

Megosztás

A NVIDIA kutatói bemutatták a X-Token nevű új eljárást, amely a tudás átadását (knowledge distillation, KD) teszi hatékonyabbá különböző tokenizátorokkal rendelkező modellek között. A X-Token a meglévő GOLD módszert múlja felül átlagosan 3.82 ponttal a Llama-3.2-1B modellen.

A hagyományos tudás átadás nagy tanár modellek „sötét tudását” adja át kisebb diák modelleknek. Ez általában megosztott tokenizátort igényel, ami akadályozza az erősebb, de inkompatibilis tokenizátorokkal rendelkező tanár modellek használatát. A X-Token ezt a problémát küszöböli ki, és nem igényel kiegészítő, tanuló komponenseket vagy architektúraváltást.

Kapcsolódó: NVIDIA Star Elastic

A tokenizátorok közötti szakadék

A kutatók két fő hibát azonosítottak a korábbi GOLD módszerben: az ismeretlen tokenek hibáját, ahol a kritikus tokenek a nem egyező részek közé esnek, és a túl konzervatív illesztést, ahol a szigorú egyezés sok hasznos jelzést veszít el. A X-Token ezekre a problémákra kínál megoldást.

Kapcsolódó: LLM-betanítás gyorsítása

A X-Token három fő részből áll: span alignment, egy projekciós mátrix (W), és két kiegészítő veszteségfüggvény (P-KL és H-KL). A span alignment dinamikus programozást használ a tokenek csoportosítására, a W mátrix pedig áthidalja a szókészletbeli különbségeket. A P-KL és H-KL veszteségfüggvények pedig a hibás és elnyomó gradiens problémáit kezelik.

Kapcsolódó: Nvidia NemoClaw

A tudás átadás új korszaka

A X-Token a Llama-3.2-1B modellen 3.82 ponttal jobb átlagos eredményt ért el a GOLD-hoz képest, miközben a tokenizátorok közötti eltérésekből adódó problémákat is sikeresen orvosolja. A NVIDIA X-Token módszer 2024-ben kerül bevezetésre a Llama-3.2-1B modellben.

Kapcsolódó: GPT-5.5 modell

tetszett a cikk? oszd meg →

Megosztás