ÉlőUtoljára: 1 órájaMa: 18
Modellek & LLMfrissítve: 15:10

Hatperces zeneszámokat generál a Stable Audio 3.0 — nyílt súlyokkal érkezik

Az új modell három változata nyílt súlyokkal érhető el, a Stability AI pedig jogi kártalanítást is kínál a vállalati ügyfeleknek a szerzői jogi aggodalmak elkerülése érdekében.

Hatperces zeneszámokat generál a Stable Audio 3.0 — nyílt súlyokkal érkezik
Fotó: Fotó: Julia Taubitz / Unsplash
forrás: The Decoder·AI Forradalom szerk.·
Megosztás

Hatperces zeneszámokat is képes generálni a Stability AI új Stable Audio 3.0 modellje, amelyet teljes egészében licencelt adatokon képeztek — írja a The Decoder.

A modellcsalád négy változatból áll. A Stable Audio 3.0 Small SFX és a Stable Audio 3.0 Small egyaránt 459 millió paraméterrel rendelkezik, és H200 GPU-n 0,44 másodperc alatt készít akár kétperces zeneszámokat. Az első a hangeffektekre fókuszál, és okostelefonokra, fogyasztói laptopokra optimalizálták. A második a rövid zeneműveket célozza. A Stable Audio 3.0 Medium 1,4 milliárd paraméterrel fut, és 1,31 másodperc alatt generál akár 6:20 perces számokat. Mindhárom modell nyílt súlyokkal elérhető a Hugging Face platformon.

A legnagyobb modell, a 2,7 milliárd paraméteres Stable Audio 3.0 Large nem nyílt súlyú. Ez kizárólag a Stability AI API-n, a fal.ai partneren keresztül, vagy vállalati licencelés útján érhető el. A Stability AI szerint ez a változat nyújtja a legmagasabb zeneiséget, és nagy generálási volumenű zenei platformok számára készült.

Új architektúra és finomhangolási lehetőségek

A Stable Audio 3.0 egy új, szemantikus-akusztikus autoenkóder architektúrán alapul, amely hosszabb és rugalmasabb audiókimenetet tesz lehetővé a Stability AI szerint. A generálás változó hosszal, másodperces pontosságú vezérléssel működik. A Stable Audio 3.0 Small az egyetlen modell, amely teljes zeneszerzést tesz lehetővé eszközön, offline és rövid mintakorlátok nélkül — közölte a cég.

A Stability AI LoRA finomhangolási dokumentációt is kiad a Stable Audio 3.0 Small és Medium súlyok mellé, lehetővé téve a felhasználók számára, hogy saját audiókönyvtáraikon képezzék a modelleket. A vállalati ügyfelek irányított finomhangolási támogatást kapnak. A modellek inpainting funkciókat is tartalmaznak, amelyekkel a felhasználók szerkeszthetik a számok egyes szegmenseit, egyszerre több szakaszt módosíthatnak, vagy meghosszabbíthatják a meglévő számokat az eredeti végpontjukon túl.

A Stability AI Community License értelmében a felhasználók birtokolják az általuk generált hangfájlokat, és kereskedelmi célra is felhasználhatják azokat. Az egymillió dollár éves bevételt meghaladó szervezeteknek a Stability AI-val kell felvenniük a kapcsolatot vállalati licencelés céljából, amely kereskedelmi lefedettséget és jogi kártalanítást is biztosít. A Stability AI rámutat, hogy tudomása szerint a versengő nyílt zenei modellek vagy korlátozzák a kereskedelmi felhasználást, vagy kockázatokat hordoznak a nem licencelt adatokon való képzés miatt. A vállalat licencelési álláspontját a Universal Music Group és a Warner Music Group kiadókkal kötött partnerségek is alátámasztják.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom