Emberi preferenciát jósol 0,98-as pontossággal az új LAM-értékelési módszer

Hatékonyabb módszert dolgoztak ki a nagyméretű hangmodellek (LAM) értékelésére, amely mindössze 50 hangminta alapján képes megbízhatóan előre jelezni a teljesítményt — írja az ArXiv-en megjelent tanulmány.

A kutatás szerint a teljes adathalmaz mindössze 0,3%-át kitevő, minimális minták is 0,93-as Pearson-korrelációt mutatnak a teljes teljesítményteszt eredményekkel. Ez jelentősen csökkentheti az értékelés költségeit és az adatredundanciát, ami kulcsfontosságú a gyorsan fejlődő LAM-piacon.

A fejlesztők azt is vizsgálták, mennyire egyeznek ezek az eredmények a felhasználói elégedettséggel. 776 emberi preferencia-értékelést gyűjtöttek valós hangasszisztens-beszélgetésekből, és azt találták, hogy mind a részleges, mind a teljes teljesítményteszt csak 0,85-ös korrelációt mutat az emberi preferenciákkal.

Az emberi preferenciák jobb előrejelzésére regressziós modelleket képeztek a kiválasztott adathalmazokon. Ezek a modellek már 0,98-as korrelációt értek el, felülmúlva a teljes teljesítményteszten képzett regressziós modelleket.