A Gemma 4 család 2,3 milliárd paraméterrel érkezik
A Gemma 4 modellcsalád az Apache 2 licenc alatt nyílt forráskódú, és olyan multimodális intelligenciát kínál, amely képek, szövegek és hangok feldolgozására is képes.

A Google DeepMind Gemma 4 család 2,3 milliárd effektív paraméterrel érkezik, és az Apache 2 licenc alatt nyílt forráskódú. A modell egyetlen architektúrában ötvözi a kép, szöveg és hang bemeneteket, és képes szöveges válaszokat generálni. A család négy méretben kapható: E2B 2,3 B, E4B 4,5 B, 26 B MoE és 31 B sűrű. Mindegyik alap és utasítás finomhangolt változat, 128 k vagy 256 k kontextusablak támogatásával.
Miért fontos? A multimodális intelligencia egyre nagyobb szerepet kap a valós idejű alkalmazásokban, ahol a számítógépeknek képeket, hangot és szöveget kell egyszerre feldolgozniuk. Gemma 4 a teljes kontextusablakot és a hosszú szövegek kezelését is támogatja, így ideális agenti feladatokra, például ügyfélszolgálatra vagy önvezető rendszerekhez. Az Apache 2 licenc miatt a fejlesztők könnyen telepíthetik saját infrastruktúrájukra, akár WebGPU‑val vagy Rust‑ban is.
A technikai részletek: a modell alternatív helyi és globális figyelmet használ, dual RoPE‑t alkalmaz a hosszú kontextushoz, és a Per‑Layer Embeddings (PLE) révén minden dekódoló réteg saját token‑specifikus információt kap. A Shared KV Cache csökkenti a memória- és számításigényt, ami előnyös a mobil és beágyazott eszközökön. A kép‑ és hangkódolók megtartják az eredeti arányokat, és több token‑költség‑szabályozott opciót kínálnak.
Az eredmények: a 31 B sűrű modell 1452 pontot ért el az LMArena szövegcsúcsokon, míg a 26 B MoE 1441 pontot, mindössze 4 B aktív paraméterrel. A multimodális tesztekben a modell OCR‑t, beszédfelismerést és objektumfelismerést is elvégzett, JSON‑ban visszaadott határvonalakat generálva a képekhez.
Mi a következő lépés? A Gemma 4 már elérhető a transformers, llama.cpp, MLX és Rust könyvtárakban, így a fejlesztők azonnal kiindulhatnak a saját alkalmazásaik fejlesztéséhez. A közösség visszajelzéseit a Hugging Face‑en várjuk, hogy tovább finomhangoljuk a multimodális képességeket a valós környezetben.