Kutatás2026. ápr. 21.frissítve: 05:10

1,4-szeres gyorsulást hoz az új módszer lengyel LLM-eknek Apple Siliconon

A technika lehetővé teszi, hogy a különböző tokenizálókat használó modellek is együttműködjenek, jelentősen felgyorsítva a válaszadást a fogyasztói eszközökön.

Fotó: Akshat Sharma / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 21.

Megosztás

Jelentős gyorsulást értek el lengyel nagyméretű nyelvi modellek (LLM-ek) futtatásában Apple Silicon chipeken, miután kutatók kiterjesztették a MLX-LM keretrendszert az úgynevezett Universal Assisted Generation (UAG) technológiával. Az eredményekről az arXiv előnyomtatott tanulmányában számoltak be.

A spekulatív dekódolás egy ismert technika a LLM-ek következtetési sebességének növelésére. Lényege, hogy egy kisebb, gyorsabb „vázlatmodell” több lehetséges tokent javasol, amelyeket egy nagyobb „célmodell” egyetlen lépésben ellenőriz. Ez a módszer eddig elsősorban azonos tokenizálóval rendelkező modellpárok és nagy sávszélességű GPU-k esetén volt hatékony. Azonban a különböző tokenizálókat használó, úgynevezett kereszt-család modellek, valamint a fogyasztói kategóriás, egyesített memóriával rendelkező rendszerek – mint az Apple Silicon – esetében a technika alkalmazhatósága eddig feltáratlan maradt.

A kutatók a Bielik 11B-Instruct modellt (Mistral alapú) használták célmodellként. Ehhez három különböző vázlatmodellt párosítottak: a lengyel specifikus Bielik 1.5B-t (Qwen alapú, egyedi tokenizálóval), valamint a Qwen2.5-1.5B és a Llama 3.2-1B általános célú modelleket. Kísérleteiket három lengyel nyelvű adathalmazon (Wikipedia, pl_alpaca, szintetikus) végezték, különböző vázlathosszúságokkal (k=2, 4, 6), összehasonlítva a naiv és a kontextus-érzékeny tokenfordítás hatékonyságát.

Az eredmények egyértelműen megmutatták, hogy a kontextus-érzékeny tokenfordítás következetesen javítja az elfogadási arányokat minden konfigurációban — írják a kutatók. Kiemelték, hogy a lengyel-specifikus Bielik 1.5B vázlatmodell felülmúlta az általános célú Qwen2.5-1.5B és Llama 3.2-1B modelleket az elfogadási arányok és a gyorsulás tekintetében a Bielik 11B-Instruct célmodell esetében.

A legjobb konfiguráció, amely a Bielik 1.5B vázlatmodellt, k=4 vázlathosszúságot és kontextus-érzékeny fordítást alkalmazta, 1,4-szeres gyorsulást ért el Apple Siliconon a lengyel nyelvi modelleknél — állítják a kutatók az arXiv:2604.16368v1 számú előnyomtatott tanulmányban.

tetszett a cikk? oszd meg →

Megosztás