Modellek & LLM2026. ápr. 28.frissítve: 00:10

VibeVoice egy órás podcastot 8 perc 45 másodperc alatt transzkribál

A Microsoft által kiadott VibeVoice modell egy óra hosszú hanganyagot képes egyetlen futtatásban lefordítani, miközben a beépített speaker diarization automatikusan azonosítja a beszélőket.

Fotó: Fotó: XT7 Core / Unsplash

forrás: Simon Willison·AI Forradalom szerk.·2026. április 28.

Megosztás

Az alapértelmezett 8192 token beállítás körülbelül 25 perc audio feldolgozását teszi lehetővé, míg a 32768 tokenre növelve a modell egy teljes órát is transzkribál — írja a Simon Willison.

A hangalapú technológiák új korszaka

VibeVoice a Whisper‑hez hasonló LLM‑alapú speech‑to‑text architektúrát használ, de a speaker diarization funkciót már a modell magjába építi, így a beszélői azonosítás külön lépés nélkül történik. A 17,3 GB‑os ASR modell 5,71 GB‑os 4‑bitos változata a nyílt forráskódú MIT licenc alatt érhető el, ami lehetővé teszi a szabad felhasználást és módosítást.

Futási idők és hardverigények

A teszt egy 128 GB RAM‑mal felszerelt M5 Max MacBook Pro‑n történt, ahol egy óra hosszú podcast átirása 524,79 másodpercet (8 perc 45 másodperc) vett igénybe. A feldolgozás csúcsmemória‑igénye 30,44 GB, a prefill szakaszban a rendszer 61,5 GB‑ot mutatott a macOS Activity Monitor‑ban. A feldolgozási sebesség 50,718 token per szekundum a prompt, 38,585 token per szekundum a generálás során.

A modell JSON kimenete minden szegmenshez tartalmazza a szöveget, kezdő‑ és befejező időpontot, időtartamot és a speaker_id‑t, így a beszélői diarization egyszerűen kiolvasható. A szerző tesztje három különböző speaker_id‑t azonosított: a beszélgetőpartner, a saját hang, és egy külön Lenny‑variáció a bevezető és a szponzor szöveghez.

VibeVoice csak egy órás audio anyag feldolgozására van optimalizálva; hosszabb felvételek esetén a hangot szegmensekre kell bontani, majd a speaker_id‑ket összehangolni. A modell 2026. január 21‑én került kiadásra a GitHub‑on.

tetszett a cikk? oszd meg →

Megosztás