Felezi a hangmodellek méretét a S-SONDO keretrendszer – olcsóbb inferencia jön
A jelenlegi hang alapmodellek rendkívül nagyok, paramétereik száma gyakran több százmillió, ami magas inferencia költségekkel és korlátozott eszközön való telepíthetőséggel jár.

Új keretrendszert mutatott be a S-SONDO kutatócsoport, amely a nagyméretű audio alapmodellek tömörítését célozza, jelentősen csökkentve a költségeket és növelve a telepíthetőséget – derül ki az arXiv előnyomtatott tanulmányából. A módszerrel az eddigi korlátok áthidalhatók, így a fejlett hang-AI szélesebb körben is elérhetővé válhat.
A modern, általános célú hang alapmodellek az elmúlt időszakban kiemelkedő teljesítményt értek el számos feladatban. Azonban ezek a csúcsmodellek rendkívül nagyok, paramétereik száma gyakran több százmillió, ami magas inferencia költségeket és korlátozott telepíthetőséget eredményez, különösen a kisebb eszközökön.
A tudásdesztilláció, vagyis a modellkompresszió egy bevált stratégia, de a korábbi audio-specifikus megoldások főként felügyelt beállításokra fókuszáltak. Ezek osztálylogitekre, köztes jellemzőkre vagy architektúra-specifikus technikákra támaszkodtak. Ez kizárta azokat a modelleket, amelyek csak beágyazásokat (embeddingeket) adnak ki, például az önszupervizált vagy metrikus tanulási modelleket.
A S-SONDO az első olyan keretrendszer, amely általános audio modelleket desztillál kizárólag a kimeneti beágyazásaik felhasználásával – állítják a kutatók. Azzal, hogy elkerüli a logitek vagy a rétegszintű illesztés szükségességét, a S-SONDO architektúra-agnosztikus, így széles körben alkalmazható beágyazás-alapú modellekre. A tanulmány az arXiv:2604.24933v1 azonosító alatt érhető el.