Token-szinten finomhangolja a szöveghosszúságot az új LenVM modell
A Length Value Model (LenVM) a generált szövegek hosszának precízebb szabályozását teszi lehetővé, ami csökkentheti a számítási költségeket és növelheti a modellek teljesítményét.

Új keretrendszert mutattak be kutatók az arXiv előnyomtatott formájában, amely token-szinten modellezi a generált szövegek hátralévő hosszát. A LenVM névre keresztelt módszer a jelenlegi, durva szekvenciaszintű megközelítések hiányosságait orvosolja, amelyek nem biztosítanak finomhangolt kontrollt a kimenet hossza felett.
A LenVM a hosszmodellezést értékbecslési problémaként kezeli, és minden generált tokenhez állandó negatív jutalmat rendel. Ez a megközelítés egy korlátozott, diszkontált hozamot jelez előre, amely a hátralévő generálási horizont monoton proxyjaként szolgál. A módszer felügyelete annotációmentes, sűrű, torzításmentes és skálázható.
A szöveghosszúság precízebb ellenőrzése
A kísérletek LLM-eken és VLM-eken azt mutatják, hogy a LenVM rendkívül hatékony jelet biztosít következtetési időben a kutatók szerint. Ez a jel jelentősen javítja a generált szövegek hosszának pontosságát, ami kulcsfontosságú a költséghatékony és releváns AI-kimenetek szempontjából.
A gyakorlati alkalmazások lehetőségei
A LIFEBench pontos hosszillesztési feladatán a LenVM alkalmazása egy 7B modellre javítja a hosszillesztést a kutatók állítása szerint. A LenVM modell 2024. márciusában kerül bemutatásra a szakmai közönségnek.