M3 Pro gépeken fut a Google legújabb, valós idejű, többmodális AI-ja
A Parlor nevű alkalmazás a Gemma 4 E2B modellt használja beszéd- és képértelmezésre, a Kokoro TTS-t pedig a válaszok generálására.

A Parlor nevű kísérleti alkalmazás teljes egészében helyben, a M3 Pro chippel szerelt Apple gépeken fut, és valós idejű, többmodális mesterséges intelligencia-beszélgetéseket tesz lehetővé — derül ki a Hacker News oldaláról. A projekt célja, hogy a felhasználók természetes hang- és képkommunikációt folytathassanak egy AI-val anélkül, hogy szerverekre kellene támaszkodniuk.
Fikri Karim fejlesztő hat hónappal ezelőtt még egy RTX 5090-es GPU-t használt a hangmodellek valós idejű futtatásához, de most a Google új, kisebb modellje, a Gemma 4 E2B lehetővé teszi, hogy mindezt egy M3 Pro chipen valósítsa meg, kiegészítve a vizuális értelmezéssel is.
A mesterséges intelligencia szőnyege
Az AI-rendszer úgy működik, hogy a böngészőből érkező hangot és képet (JPEG-kereteket) WebSocketen keresztül küldi egy FastAPI szerverre. Itt a Gemma 4 E2B modell, a LiteRT-LM segítségével, a GPU-n értelmezi a beszédet és a képet. A válaszokat a Kokoro TTS motor generálja, amely macOS-en MLX-et, Linuxon pedig ONNX-et használ, majd az audio streamet visszaküldi a böngészőbe.
A hangtechnológia vízesése
A rendszer olyan fejlett funkciókat is támogat, mint a böngészőben futó, kéz nélküli hangaktivitás-érzékelés (Silero VAD), a „barge-in” képesség, amely lehetővé teszi az AI félbeszakítását beszéd közben, valamint a mondatszintű TTS streaming, ahol az audio már a teljes válasz generálása előtt elkezdődik.
A M3 Pro chipen a beszédfelismerés és a képértelmezés nagyjabol 1,8-2,2 másodpercet vesz igénybe, míg egy 25 tokenes válasz generálása 0,3 másodperc alatt elkészül. A szövegfelolvasás további 0,3-0,7 másodpercet igényel, így a teljes végpontok közötti folyamat 2,5-3,0 másodperc alatt zajlik le, 83 token/másodperc dekódolási sebességgel a Gemma 4 E2B modell segítségével.