A Google Gemma 4 és az NVIDIA forradalmasítja a helyi AI-t: gyorsabb mint valaha
A Google Gemma 4 család legújabb modelljei akár 2,7-szer gyorsabb inferenciát tesznek lehetővé az RTX 5090-en, mint az M3 Ultra asztali gép.

Google bejelentette a Gemma 4 család legújabb modelljeit, melyek 2.7-szer gyorsabb inferenciát tesznek lehetővé az RTX 5090-en, mint egy M3 Ultra asztali gépen, így a tokenadó (token tax) teljesen elkerülhető. A Gemma 4 E2B és E4B a szegmens legkisebb, gyorsabb változatai, míg a 26B és 31B a nagyobb, komplex problémákra optimalizált verziók.
Az új modellek az NVIDIA Tensor Core-okkal optimalizáltak, így a GPU-kon futtatva akár 2.7-szer gyorsabb, mint a llama.cpp alapú M3 Ultra. Ez jelentősen csökkenti a tokengenerálási szűrőpontot és lehetővé teszi a valós idejű, offline működést.
Az OpenClaw, a személyre szabott, állandó AI asszisztens platform, teljes mértékben kompatibilis a Gemma 4‑el. Az OpenClaw segítségével a felhasználók saját fájlokból, alkalmazásokból és munkafolyamatokból húzhatnak kontextust, miközben az összes token generálás helyben történik, így a felhő API költségek elkerülhetők.
A NeMoClaw, az NVIDIA nyílt forráskódú biztonsági rétege, további adatvédelmi és szabályozási funkciókat kínál. A NeMoClaw egyetlen parancsra futtatható, és biztosítja, hogy az önállóan fejlődő agentek csak a meghatározott adatvédelmi szabályok szerint működjenek.
Mi a következő lépés? A Gemma 4 és az NVIDIA GPU-k kombinációja már most megmutatja, hogy a helyi, agenti AI nem csupán lehetséges, de költséghatékony is. A következő feladat a szélesebb körű integráció és a felhasználói élmény finomhangolása, hogy az AI asszisztensek még természetesebbek legyenek.