Alkalmazások2026. ápr. 6.frissítve: 11:10

M3 Pro gépeken fut a Google legújabb, valós idejű, többmodális AI-ja

A Parlor nevű alkalmazás a Gemma 4 E2B modellt használja beszéd- és képértelmezésre, a Kokoro TTS-t pedig a válaszok generálására.

Fotó: Fotó: Boitumelo / Unsplash

forrás: Hacker News·AI Forradalom szerk.·2026. április 6.

Megosztás

A Parlor nevű kísérleti alkalmazás teljes egészében helyben, a M3 Pro chippel szerelt Apple gépeken fut, és valós idejű, többmodális mesterséges intelligencia-beszélgetéseket tesz lehetővé — derül ki a Hacker News oldaláról. A projekt célja, hogy a felhasználók természetes hang- és képkommunikációt folytathassanak egy AI-val anélkül, hogy szerverekre kellene támaszkodniuk.

Fikri Karim fejlesztő hat hónappal ezelőtt még egy RTX 5090-es GPU-t használt a hangmodellek valós idejű futtatásához, de most a Google új, kisebb modellje, a Gemma 4 E2B lehetővé teszi, hogy mindezt egy M3 Pro chipen valósítsa meg, kiegészítve a vizuális értelmezéssel is.

A mesterséges intelligencia szőnyege

Az AI-rendszer úgy működik, hogy a böngészőből érkező hangot és képet (JPEG-kereteket) WebSocketen keresztül küldi egy FastAPI szerverre. Itt a Gemma 4 E2B modell, a LiteRT-LM segítségével, a GPU-n értelmezi a beszédet és a képet. A válaszokat a Kokoro TTS motor generálja, amely macOS-en MLX-et, Linuxon pedig ONNX-et használ, majd az audio streamet visszaküldi a böngészőbe.

A hangtechnológia vízesése

A rendszer olyan fejlett funkciókat is támogat, mint a böngészőben futó, kéz nélküli hangaktivitás-érzékelés (Silero VAD), a „barge-in” képesség, amely lehetővé teszi az AI félbeszakítását beszéd közben, valamint a mondatszintű TTS streaming, ahol az audio már a teljes válasz generálása előtt elkezdődik.

A M3 Pro chipen a beszédfelismerés és a képértelmezés nagyjabol 1,8-2,2 másodpercet vesz igénybe, míg egy 25 tokenes válasz generálása 0,3 másodperc alatt elkészül. A szövegfelolvasás további 0,3-0,7 másodpercet igényel, így a teljes végpontok közötti folyamat 2,5-3,0 másodperc alatt zajlik le, 83 token/másodperc dekódolási sebességgel a Gemma 4 E2B modell segítségével.

tetszett a cikk? oszd meg →

Megosztás