NVIDIA X-Token: 3.82 ponttal jobb a Llama-3-nál a tudás átadásában
A NVIDIA X-Token nevű új módszere 3.82 ponttal múlja felül a GOLD-ot a Llama-3.2-1B modellen, áthidalva a különböző tokenizátorok közötti különbségeket.

A NVIDIA kutatói bemutatták a X-Token nevű új eljárást, amely a tudás átadását (knowledge distillation, KD) teszi hatékonyabbá különböző tokenizátorokkal rendelkező modellek között. A X-Token a meglévő GOLD módszert múlja felül átlagosan 3.82 ponttal a Llama-3.2-1B modellen.
A hagyományos tudás átadás nagy tanár modellek „sötét tudását” adja át kisebb diák modelleknek. Ez általában megosztott tokenizátort igényel, ami akadályozza az erősebb, de inkompatibilis tokenizátorokkal rendelkező tanár modellek használatát. A X-Token ezt a problémát küszöböli ki, és nem igényel kiegészítő, tanuló komponenseket vagy architektúraváltást.
Kapcsolódó: NVIDIA Star Elastic
A tokenizátorok közötti szakadék
A kutatók két fő hibát azonosítottak a korábbi GOLD módszerben: az ismeretlen tokenek hibáját, ahol a kritikus tokenek a nem egyező részek közé esnek, és a túl konzervatív illesztést, ahol a szigorú egyezés sok hasznos jelzést veszít el. A X-Token ezekre a problémákra kínál megoldást.
Kapcsolódó: LLM-betanítás gyorsítása
A X-Token három fő részből áll: span alignment, egy projekciós mátrix (W), és két kiegészítő veszteségfüggvény (P-KL és H-KL). A span alignment dinamikus programozást használ a tokenek csoportosítására, a W mátrix pedig áthidalja a szókészletbeli különbségeket. A P-KL és H-KL veszteségfüggvények pedig a hibás és elnyomó gradiens problémáit kezelik.
Kapcsolódó: Nvidia NemoClaw
A tudás átadás új korszaka
A X-Token a Llama-3.2-1B modellen 3.82 ponttal jobb átlagos eredményt ért el a GOLD-hoz képest, miközben a tokenizátorok közötti eltérésekből adódó problémákat is sikeresen orvosolja. A NVIDIA X-Token módszer 2024-ben kerül bevezetésre a Llama-3.2-1B modellben.
Kapcsolódó: GPT-5.5 modell