Modellek & LLM2026. ápr. 22.frissítve: 18:30

A Gemma 4 VLA már a Jetson Orin Nano Superen is fut — kamerával válaszol

A modell képes önállóan eldönteni, hogy a válaszadáshoz szüksége van-e a webkamera képére, mindezt egy 8 GB RAM-mal szerelt, helyi eszközön.

Fotó: Ghostinmirror / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. április 22.

Megosztás

A Google Gemma 4 VLA (Vision-Language Assistant) modellje mostantól az NVIDIA Jetson Orin Nano Super eszközén is futtatható, demonstrálva a lokális multimodális AI képességeit — írja a Hugging Face blogja.

A modell képes önállóan eldönteni, hogy a válaszadáshoz szüksége van-e a webkamera képére, mindezt egy 8 GB RAM-mal szerelt, helyi eszközön. A rendszerhez szükséges hardverek között szerepel egy Logitech C920 webkamera és egy USB hangszóró.

A Vizuális Döntéshozatal Művészete

Ha a Gemma 4 úgy ítéli meg, hogy a kérdés vizuális kontextust igényel, fényképet készít a webkamerával, értelmezi azt, és a látottak alapján ad választ. Fontos, hogy a modell nem csupán leírja a képet, hanem a látott információkat felhasználva válaszol a konkrét kérdésre.

Vizuális Intelligencia a Gyakorlatban

A demo futtatásához egy NVIDIA Jetson Orin Nano Super (8 GB RAM) szükséges. A rendszer optimalizálásához javasolt a RAM felszabadítása, például a Docker és más memóriazabáló folyamatok leállítása, valamint egy 8 GB-os swap fájl létrehozása. A Gemma 4 modell és a hozzá tartozó vizuális projektor (mmproj-gemma4-e2b-f16.gguf) letöltése után a llama-server indítható el a Jetson eszközön.

A teljes szkript és a telepítési útmutató elérhető Asier Arranz GitHub-tárházában, a Google_Gemma repóban, a Gemma 2 demók mellett, 2024. március 15-étől.

tetszett a cikk? oszd meg →

Megosztás