Frissítve: 15 perce·Ma: 50
Alkalmazások
AI által generált szöveg

M3 Pro gépeken fut a Google legújabb, valós idejű, többmodális AI-ja

A Parlor nevű alkalmazás a Gemma 4 E2B modellt használja beszéd- és képértelmezésre, a Kokoro TTS-t pedig a válaszok generálására.

M3 Pro gépeken fut a Google legújabb, valós idejű, többmodális AI-ja
Fotó: Boitumelo / Unsplash
Forrás: Hacker NewsSzerző: AI Forradalom szerk.
Megosztás

A Parlor nevű kísérleti alkalmazás teljes egészében helyben, a M3 Pro chippel szerelt Apple gépeken fut, és valós idejű, többmodális mesterséges intelligencia-beszélgetéseket tesz lehetővé — derül ki a Hacker News oldaláról. A projekt célja, hogy a felhasználók természetes hang- és képkommunikációt folytathassanak egy AI-val anélkül, hogy szerverekre kellene támaszkodniuk.

Fikri Karim fejlesztő hat hónappal ezelőtt még egy RTX 5090-es GPU-t használt a hangmodellek valós idejű futtatásához, de most a Google új, kisebb modellje, a Gemma 4 E2B lehetővé teszi, hogy mindezt egy M3 Pro chipen valósítsa meg, kiegészítve a vizuális értelmezéssel is.

A mesterséges intelligencia szőnyege

Az AI-rendszer úgy működik, hogy a böngészőből érkező hangot és képet (JPEG-kereteket) WebSocketen keresztül küldi egy FastAPI szerverre. Itt a Gemma 4 E2B modell, a LiteRT-LM segítségével, a GPU-n értelmezi a beszédet és a képet. A válaszokat a Kokoro TTS motor generálja, amely macOS-en MLX-et, Linuxon pedig ONNX-et használ, majd az audio streamet visszaküldi a böngészőbe.

A hangtechnológia vízesése

A rendszer olyan fejlett funkciókat is támogat, mint a böngészőben futó, kéz nélküli hangaktivitás-érzékelés (Silero VAD), a „barge-in” képesség, amely lehetővé teszi az AI félbeszakítását beszéd közben, valamint a mondatszintű TTS streaming, ahol az audio már a teljes válasz generálása előtt elkezdődik.

A M3 Pro chipen a beszédfelismerés és a képértelmezés nagyjabol 1,8-2,2 másodpercet vesz igénybe, míg egy 25 tokenes válasz generálása 0,3 másodperc alatt elkészül. A szövegfelolvasás további 0,3-0,7 másodpercet igényel, így a teljes végpontok közötti folyamat 2,5-3,0 másodperc alatt zajlik le, 83 token/másodperc dekódolási sebességgel a Gemma 4 E2B modell segítségével.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom