Hatperces zeneszámokat generál a Stable Audio 3.0 — nyílt súlyokkal érkezik
Az új modell három változata nyílt súlyokkal érhető el, a Stability AI pedig jogi kártalanítást is kínál a vállalati ügyfeleknek a szerzői jogi aggodalmak elkerülése érdekében.

Hatperces zeneszámokat is képes generálni a Stability AI új Stable Audio 3.0 modellje, amelyet teljes egészében licencelt adatokon képeztek — írja a The Decoder.
A modellcsalád négy változatból áll. A Stable Audio 3.0 Small SFX és a Stable Audio 3.0 Small egyaránt 459 millió paraméterrel rendelkezik, és H200 GPU-n 0,44 másodperc alatt készít akár kétperces zeneszámokat. Az első a hangeffektekre fókuszál, és okostelefonokra, fogyasztói laptopokra optimalizálták. A második a rövid zeneműveket célozza. A Stable Audio 3.0 Medium 1,4 milliárd paraméterrel fut, és 1,31 másodperc alatt generál akár 6:20 perces számokat. Mindhárom modell nyílt súlyokkal elérhető a Hugging Face platformon.
A legnagyobb modell, a 2,7 milliárd paraméteres Stable Audio 3.0 Large nem nyílt súlyú. Ez kizárólag a Stability AI API-n, a fal.ai partneren keresztül, vagy vállalati licencelés útján érhető el. A Stability AI szerint ez a változat nyújtja a legmagasabb zeneiséget, és nagy generálási volumenű zenei platformok számára készült.
Új architektúra és finomhangolási lehetőségek
A Stable Audio 3.0 egy új, szemantikus-akusztikus autoenkóder architektúrán alapul, amely hosszabb és rugalmasabb audiókimenetet tesz lehetővé a Stability AI szerint. A generálás változó hosszal, másodperces pontosságú vezérléssel működik. A Stable Audio 3.0 Small az egyetlen modell, amely teljes zeneszerzést tesz lehetővé eszközön, offline és rövid mintakorlátok nélkül — közölte a cég.
A Stability AI LoRA finomhangolási dokumentációt is kiad a Stable Audio 3.0 Small és Medium súlyok mellé, lehetővé téve a felhasználók számára, hogy saját audiókönyvtáraikon képezzék a modelleket. A vállalati ügyfelek irányított finomhangolási támogatást kapnak. A modellek inpainting funkciókat is tartalmaznak, amelyekkel a felhasználók szerkeszthetik a számok egyes szegmenseit, egyszerre több szakaszt módosíthatnak, vagy meghosszabbíthatják a meglévő számokat az eredeti végpontjukon túl.
A Stability AI Community License értelmében a felhasználók birtokolják az általuk generált hangfájlokat, és kereskedelmi célra is felhasználhatják azokat. Az egymillió dollár éves bevételt meghaladó szervezeteknek a Stability AI-val kell felvenniük a kapcsolatot vállalati licencelés céljából, amely kereskedelmi lefedettséget és jogi kártalanítást is biztosít. A Stability AI rámutat, hogy tudomása szerint a versengő nyílt zenei modellek vagy korlátozzák a kereskedelmi felhasználást, vagy kockázatokat hordoznak a nem licencelt adatokon való képzés miatt. A vállalat licencelési álláspontját a Universal Music Group és a Warner Music Group kiadókkal kötött partnerségek is alátámasztják.