Microsoft OpenMementos: 6-szoros tömörítést ígér a nyílt forráskódú adathalmaz
A nyílt forráskódú adathalmaz célja, hogy a hosszú érvelési láncokat kompakt formában rögzítse, ezzel támogatva a nagyméretű nyelvi modellek hatékony képzését és futtatását.

A Microsoft OpenMementos adathalmazával dolgozva a fejlesztők hatékonyan elemezhetik az érvelési láncok struktúráját, a kontextus tömörítését és az adatok finomhangolásra való előkészítését — írja a MarkTechPost.
A Colab-kompatibilis munkafolyamat lehetővé teszi a felhasználók számára, hogy a datasetet streameljék, speciális token formátumát elemezzék, és megvizsgálják, hogyan szerveződnek az érvelések és összefoglalók. A memento-reprezentáció jelentős tömörítést biztosít különböző domainekben, miközben az adathalmaz mintázatait vizualizálják és az inferencia-idejű tömörítést is szimulálják.
A kutatás szerint a memento alapú tömörítés akár 6-szoros token-tömörítést is elérhet, ami kulcsfontosságú a hosszú formátumú érvelések hatékony kezelésében. Ez a módszer jelentősen csökkentheti a betanítási és inferencia-költségeket, miközben megőrzi a modellek pontosságát.
A Microsoft OpenMementos adathalmaz az Apache 2.0 licenc alatt érhető el, és Python 3.11, 3.12 vagy 3.13 környezetben használható. A projekt a GitHubon is elérhető.