Modellek & LLM2026. ápr. 1.frissítve: 20:45

A Bonsai-8B 14-szer kisebb, mint a standard Llama modell

A Bonsai-8B modell 136 tokent dolgoz fel másodpercenként egy M4 Pro Macen

Fotó: Fotó: Google DeepMind / Unsplash

forrás: Reddit LocalLLaMA·AI Forradalom szerk.·2026. április 1.

Megosztás

A PrismML új 1‑bit Bonsai-8B LLM 14‑szer kisebb, mint a hagyományos Llama 3 modell, és a méret csökkenés mellett a teljesítmény is megmarad. A 16 GB-nyi standard 8B modell helyett a Bonsai-8B csak 1,15 GB‑t foglal, miközben az átlagos teljesítményteszt pontszága 70,5, ami megegyezik a teljes pontosságú 8B modellek eredményeivel.

Az új modell 136 token/perc sebességgel fut az Apple M4 Pro Mac-en, szemben a 17 token/perc sebességgel, amit a 16‑bit Llama 3 kínál. Ez azt jelenti, hogy egyetlen eszközön a felhasználók akár nyolc-szor gyorsabban futtathatják a nyelvi feladatokat, miközben a tárhelyigény a tizedik részre csökken.

A 1‑bit Bonsai-8B a MLX keretrendszerrel fut natív módon Apple eszközökön, és a llama.cpp CUDA támogatással is elérhető NVIDIA GPU-kon. A modell súlyai Apache 2.0 licenccel érhetők el, így a fejlesztők szabadon módosíthatják és terjeszthetik őket.

Az ilyen méretcsökkentés és sebességnövelés lehetővé teszi, hogy a kis erőforrású eszközök is komplex nyelvi feldolgozást végezzenek, ami új lehetőségeket nyit a mobil és beágyazott alkalmazások számára. A teljesítményteszt eredmények alapján a 1‑bit Bonsai-8B versenyképes, miközben jelentősen csökkenti a tárolási és számítási költségeket.

Mi a következő lépés? A PrismML a következő frissítésben a 1‑bit Bonsai-8B-t bővíti további, többnyelvű képességekkel, így a modell nemcsak méretben, hanem funkcionalitásban is közelebb kerül a teljes 8B LLM-ekhez.

tetszett a cikk? oszd meg →

Megosztás