VibeVoice egy órás podcastot 8 perc 45 másodperc alatt transzkribál
A Microsoft által kiadott VibeVoice modell egy óra hosszú hanganyagot képes egyetlen futtatásban lefordítani, miközben a beépített speaker diarization automatikusan azonosítja a beszélőket.

Az alapértelmezett 8192 token beállítás körülbelül 25 perc audio feldolgozását teszi lehetővé, míg a 32768 tokenre növelve a modell egy teljes órát is transzkribál — írja a Simon Willison.
A hangalapú technológiák új korszaka
VibeVoice a Whisper‑hez hasonló LLM‑alapú speech‑to‑text architektúrát használ, de a speaker diarization funkciót már a modell magjába építi, így a beszélői azonosítás külön lépés nélkül történik. A 17,3 GB‑os ASR modell 5,71 GB‑os 4‑bitos változata a nyílt forráskódú MIT licenc alatt érhető el, ami lehetővé teszi a szabad felhasználást és módosítást.
Futási idők és hardverigények
A teszt egy 128 GB RAM‑mal felszerelt M5 Max MacBook Pro‑n történt, ahol egy óra hosszú podcast átirása 524,79 másodpercet (8 perc 45 másodperc) vett igénybe. A feldolgozás csúcsmemória‑igénye 30,44 GB, a prefill szakaszban a rendszer 61,5 GB‑ot mutatott a macOS Activity Monitor‑ban. A feldolgozási sebesség 50,718 token per szekundum a prompt, 38,585 token per szekundum a generálás során.
A modell JSON kimenete minden szegmenshez tartalmazza a szöveget, kezdő‑ és befejező időpontot, időtartamot és a speaker_id‑t, így a beszélői diarization egyszerűen kiolvasható. A szerző tesztje három különböző speaker_id‑t azonosított: a beszélgetőpartner, a saját hang, és egy külön Lenny‑variáció a bevezető és a szponzor szöveghez.
VibeVoice csak egy órás audio anyag feldolgozására van optimalizálva; hosszabb felvételek esetén a hangot szegmensekre kell bontani, majd a speaker_id‑ket összehangolni. A modell 2026. január 21‑én került kiadásra a GitHub‑on.