A Bonsai-8B 14-szer kisebb, mint a standard Llama modell
A Bonsai-8B modell 136 tokent dolgoz fel másodpercenként egy M4 Pro Macen

A PrismML új 1‑bit Bonsai-8B LLM 14‑szer kisebb, mint a hagyományos Llama 3 modell, és a méret csökkenés mellett a teljesítmény is megmarad. A 16 GB-nyi standard 8B modell helyett a Bonsai-8B csak 1,15 GB‑t foglal, miközben az átlagos teljesítményteszt pontszága 70,5, ami megegyezik a teljes pontosságú 8B modellek eredményeivel.
Az új modell 136 token/perc sebességgel fut az Apple M4 Pro Mac-en, szemben a 17 token/perc sebességgel, amit a 16‑bit Llama 3 kínál. Ez azt jelenti, hogy egyetlen eszközön a felhasználók akár nyolc-szor gyorsabban futtathatják a nyelvi feladatokat, miközben a tárhelyigény a tizedik részre csökken.
A 1‑bit Bonsai-8B a MLX keretrendszerrel fut natív módon Apple eszközökön, és a llama.cpp CUDA támogatással is elérhető NVIDIA GPU-kon. A modell súlyai Apache 2.0 licenccel érhetők el, így a fejlesztők szabadon módosíthatják és terjeszthetik őket.
Az ilyen méretcsökkentés és sebességnövelés lehetővé teszi, hogy a kis erőforrású eszközök is komplex nyelvi feldolgozást végezzenek, ami új lehetőségeket nyit a mobil és beágyazott alkalmazások számára. A teljesítményteszt eredmények alapján a 1‑bit Bonsai-8B versenyképes, miközben jelentősen csökkenti a tárolási és számítási költségeket.
Mi a következő lépés? A PrismML a következő frissítésben a 1‑bit Bonsai-8B-t bővíti további, többnyelvű képességekkel, így a modell nemcsak méretben, hanem funkcionalitásban is közelebb kerül a teljes 8B LLM-ekhez.