Modellek & LLM2026. máj. 21.frissítve: 02:50

Qwen 3.6 35B GGUF kvantizációkat adott ki a ByteShape NTP és MTP változatokban

A Qwen 3.6 35B modell GGUF kvantizált verzióit adta ki a ByteShape standard NTP és MTP változatokban. A MTP modellek jobb perplexitást kínálnak azonos kvantizációs szinten, ami jobb minőséget jelenthet, különösen hosszabb kontextus esetén.

Fotó: BoliviaInteligente / Unsplash

forrás: Reddit LocalLLaMA·AI Forradalom szerk.·2026. május 21.

Megosztás

Két fő családban, standard NTP (Next Token Prediction) és MTP (Multi-Token Prediction) változatokban adta ki a Qwen 3.6 35B modell GGUF kvantizált verzióit a ByteShape — írja a Reddit r/LocalLLaMA aloldala.

A MTP modelleket kifejezetten hosszabb kontextusú feladatokhoz és jobb teljesítményre tervezték, ahol több kontextusra van szükség. A ByteShape szerint a MTP modellek jobb perplexitást (alacsonyabb érték a jobb) kínálnak a NTP modelleknél azonos kvantizációs szinten, ami jobb minőséget jelez.

Ugyanakkor a ByteShape megjegyzi, hogy a MTP modellek általában lassabbak, mint a NTP változatok, így a felhasználóknak mérlegelniük kell a sebesség és a minőség közötti kompromisszumot. A vállalat azt tanácsolja, hogy a felhasználók a VRAM kapacitásukhoz illeszkedő legnagyobb kvantizációt válasszák a Hugging Face platformon elérhető modellek közül.

A ByteShape részletes benchmarkokat is közzétett a blogbejegyzésében, amelyek különböző GPU-kon és CPU-kon mutatják be a modellek teljesítményét a Qwen 3.6 35B esetében.

tetszett a cikk? oszd meg →

Megosztás