ÉlőUtoljára: 16 perceMa: 7
Kutatásfrissítve: 08:30

Token-szinten finomhangolja a szöveghosszúságot az új LenVM modell

A Length Value Model (LenVM) a generált szövegek hosszának precízebb szabályozását teszi lehetővé, ami csökkentheti a számítási költségeket és növelheti a modellek teljesítményét.

Token-szinten finomhangolja a szöveghosszúságot az új LenVM modell
Fotó: Fotó: Unlimited Access / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Új keretrendszert mutattak be kutatók az arXiv előnyomtatott formájában, amely token-szinten modellezi a generált szövegek hátralévő hosszát. A LenVM névre keresztelt módszer a jelenlegi, durva szekvenciaszintű megközelítések hiányosságait orvosolja, amelyek nem biztosítanak finomhangolt kontrollt a kimenet hossza felett.

A LenVM a hosszmodellezést értékbecslési problémaként kezeli, és minden generált tokenhez állandó negatív jutalmat rendel. Ez a megközelítés egy korlátozott, diszkontált hozamot jelez előre, amely a hátralévő generálási horizont monoton proxyjaként szolgál. A módszer felügyelete annotációmentes, sűrű, torzításmentes és skálázható.

A szöveghosszúság precízebb ellenőrzése

A kísérletek LLM-eken és VLM-eken azt mutatják, hogy a LenVM rendkívül hatékony jelet biztosít következtetési időben a kutatók szerint. Ez a jel jelentősen javítja a generált szövegek hosszának pontosságát, ami kulcsfontosságú a költséghatékony és releváns AI-kimenetek szempontjából.

A gyakorlati alkalmazások lehetőségei

A LIFEBench pontos hosszillesztési feladatán a LenVM alkalmazása egy 7B modellre javítja a hosszillesztést a kutatók állítása szerint. A LenVM modell 2024. márciusában kerül bemutatásra a szakmai közönségnek.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom