A Gemma 4 VLA már a Jetson Orin Nano Superen is fut — kamerával válaszol
A modell képes önállóan eldönteni, hogy a válaszadáshoz szüksége van-e a webkamera képére, mindezt egy 8 GB RAM-mal szerelt, helyi eszközön.

A Google Gemma 4 VLA (Vision-Language Assistant) modellje mostantól a NVIDIA Jetson Orin Nano Super eszközén is futtatható, demonstrálva a lokális multimodális AI képességeit — írja a Hugging Face blogja.
A modell képes önállóan eldönteni, hogy a válaszadáshoz szüksége van-e a webkamera képére, mindezt egy 8 GB RAM-mal szerelt, helyi eszközön. A rendszerhez szükséges hardverek között szerepel egy Logitech C920 webkamera és egy USB hangszóró.
A Vizuális Döntéshozatal Művészete
Ha a Gemma 4 úgy ítéli meg, hogy a kérdés vizuális kontextust igényel, fényképet készít a webkamerával, értelmezi azt, és a látottak alapján ad választ. Fontos, hogy a modell nem csupán leírja a képet, hanem a látott információkat felhasználva válaszol a konkrét kérdésre.
Vizuális Intelligencia a Gyakorlatban
A demo futtatásához egy NVIDIA Jetson Orin Nano Super (8 GB RAM) szükséges. A rendszer optimalizálásához javasolt a RAM felszabadítása, például a Docker és más memóriazabáló folyamatok leállítása, valamint egy 8 GB-os swap fájl létrehozása. A Gemma 4 modell és a hozzá tartozó vizuális projektor (mmproj-gemma4-e2b-f16.gguf) letöltése után a llama-server indítható el a Jetson eszközön.
A teljes szkript és a telepítési útmutató elérhető Asier Arranz GitHub-tárházában, a Google_Gemma repóban, a Gemma 2 demók mellett, 2024. március 15-étől.