Modellek & LLM2026. máj. 28.frissítve: 10:30

Perplexity AI: 5x gyorsabb tokenizálás a Hugging Face-nél

A Perplexity AI nyílt forráskódúvá tette Rustban írt Unigram tokenizerét, ami 5x gyorsabb a Hugging Face megoldásánál, és 5-6x-kal csökkenti a CPU-használatot.

Fotó: Fotó: Zach M / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. május 28.

Megosztás

A Perplexity AI kutatócsoportja Rustban írta újra és tette közzé Unigram tokenizerét a pplx-garden nevű adattárában. Az új kód a korábbi Hugging Face tokenizálóhoz képest nagyjából 5-szörösére csökkenti a válaszadási időt (p50 latency) a valós idejű bemeneti hosszakon. Ezzel párhuzamosan 5-6-szorosára mérsékelte a CPU-használatot a Perplexity AI saját rendszereiben, és több tízmilliszekundumot faragott le a reranker válaszidejéből.

A nagy nyelvi modellek (LLM) válaszadási sebességét általában a GPU-n futó számítások határozzák meg, mint a KV cache-ek vagy a figyelmi magok. Azonban az olyan kisebb modellek, mint az embeddingek, osztályozók és rerankerek esetében a CPU-oldali tokenizálás válik szűk keresztmetszetté.

Kapcsolódó: Meta agyi AI

A szókészlet optimalizálása

A Perplexity AI a XLM-RoBERTa modellhez készült, 250 ezer tokenes Unigram szókészletű tokenizerüket optimalizálta. A finomhangolt RoBERTa-családú modellek gyakori választásnak számítanak rangsorolási, keresési és hasonlósági feladatoknál.

Kapcsolódó: GPT-5.4-Cyber

A Hugging Face tokenizáló implementációjában a sebességcsökkenést a többszörös memóriafoglalás és a mutatókövetés okozta. A Perplexity AI három optimalizálást hajtott végre: először egy dupla-array trie-t használtak, amely két sík egész tömbből áll, így elkerülve a hash-számításokat és a mutatókövetést.

Kapcsolódó: Perplexity AI botrány

A teljesítmény mérése

A végső sebességtesztek egy egymagos Intel Xeon Platinum 8488C processzoron futottak, 10 000 iteráció után. A 514 tokenes bemenetnél a Perplexity AI új tokenizere 68 µs p50 latenciát ért el, szemben a Hugging Face 349 µs-ával. A SentencePiece C++ implementációja 128 µs-ot, az IREE C tokenizere pedig 178 µs-ot produkált. A Perplexity AI új megoldása így 5x alacsonyabb p50 latenciát kínál a Hugging Face-hez képest, miközben a CPU-használatot is drasztikusan csökkenti. A tesztek 2024. március 10-én fejeződtek be.

Kapcsolódó: Perplexity Mac app

tetszett a cikk? oszd meg →

Megosztás