ÉlőUtoljára: 15 perceMa: 7
Modellek & LLMfrissítve: 03:30

Microsoft OpenMementos: 6-szoros tömörítést ígér a nyílt forráskódú adathalmaz

A nyílt forráskódú adathalmaz célja, hogy a hosszú érvelési láncokat kompakt formában rögzítse, ezzel támogatva a nagyméretű nyelvi modellek hatékony képzését és futtatását.

Microsoft OpenMementos: 6-szoros tömörítést ígér a nyílt forráskódú adathalmaz
Fotó: Fotó: Dimitri Karastelev / Unsplash
forrás: MarkTechPost·AI Forradalom szerk.·
Megosztás

A Microsoft OpenMementos adathalmazával dolgozva a fejlesztők hatékonyan elemezhetik az érvelési láncok struktúráját, a kontextus tömörítését és az adatok finomhangolásra való előkészítését — írja a MarkTechPost.

A Colab-kompatibilis munkafolyamat lehetővé teszi a felhasználók számára, hogy a datasetet streameljék, speciális token formátumát elemezzék, és megvizsgálják, hogyan szerveződnek az érvelések és összefoglalók. A memento-reprezentáció jelentős tömörítést biztosít különböző domainekben, miközben az adathalmaz mintázatait vizualizálják és az inferencia-idejű tömörítést is szimulálják.

A kutatás szerint a memento alapú tömörítés akár 6-szoros token-tömörítést is elérhet, ami kulcsfontosságú a hosszú formátumú érvelések hatékony kezelésében. Ez a módszer jelentősen csökkentheti a betanítási és inferencia-költségeket, miközben megőrzi a modellek pontosságát.

A Microsoft OpenMementos adathalmaz az Apache 2.0 licenc alatt érhető el, és Python 3.11, 3.12 vagy 3.13 környezetben használható. A projekt a GitHubon is elérhető.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom