Perplexity AI: 5x gyorsabb tokenizálás a Hugging Face-nél
A Perplexity AI nyílt forráskódúvá tette Rustban írt Unigram tokenizerét, ami 5x gyorsabb a Hugging Face megoldásánál, és 5-6x-kal csökkenti a CPU-használatot.

A Perplexity AI kutatócsoportja Rustban írta újra és tette közzé Unigram tokenizerét a pplx-garden nevű adattárában. Az új kód a korábbi Hugging Face tokenizálóhoz képest nagyjából 5-szörösére csökkenti a válaszadási időt (p50 latency) a valós idejű bemeneti hosszakon. Ezzel párhuzamosan 5-6-szorosára mérsékelte a CPU-használatot a Perplexity AI saját rendszereiben, és több tízmilliszekundumot faragott le a reranker válaszidejéből.
A nagy nyelvi modellek (LLM) válaszadási sebességét általában a GPU-n futó számítások határozzák meg, mint a KV cache-ek vagy a figyelmi magok. Azonban az olyan kisebb modellek, mint az embeddingek, osztályozók és rerankerek esetében a CPU-oldali tokenizálás válik szűk keresztmetszetté.
Kapcsolódó: Meta agyi AI
A szókészlet optimalizálása
A Perplexity AI a XLM-RoBERTa modellhez készült, 250 ezer tokenes Unigram szókészletű tokenizerüket optimalizálta. A finomhangolt RoBERTa-családú modellek gyakori választásnak számítanak rangsorolási, keresési és hasonlósági feladatoknál.
Kapcsolódó: GPT-5.4-Cyber
A Hugging Face tokenizáló implementációjában a sebességcsökkenést a többszörös memóriafoglalás és a mutatókövetés okozta. A Perplexity AI három optimalizálást hajtott végre: először egy dupla-array trie-t használtak, amely két sík egész tömbből áll, így elkerülve a hash-számításokat és a mutatókövetést.
Kapcsolódó: Perplexity AI botrány
A teljesítmény mérése
A végső sebességtesztek egy egymagos Intel Xeon Platinum 8488C processzoron futottak, 10 000 iteráció után. A 514 tokenes bemenetnél a Perplexity AI új tokenizere 68 µs p50 latenciát ért el, szemben a Hugging Face 349 µs-ával. A SentencePiece C++ implementációja 128 µs-ot, az IREE C tokenizere pedig 178 µs-ot produkált. A Perplexity AI új megoldása így 5x alacsonyabb p50 latenciát kínál a Hugging Face-hez képest, miközben a CPU-használatot is drasztikusan csökkenti. A tesztek 2024. március 10-én fejeződtek be.
Kapcsolódó: Perplexity Mac app