Az IBM Granite R2 bemutatja: 97M paraméteres modell veri a 100M alatti riválisokat
A 97 millió paraméteres kompakt modell 60,3 pontot ért el a MTEB Multilingual Retrieval teljesítményteszten, ezzel felülmúlva minden nyílt, 100 millió paraméter alatti riválisát.

Két új, Apache 2.0 licenszű, többnyelvű beágyazási modellt adott ki az IBM, amelyek a ModernBERT architektúrára épülnek — írja a Hugging Face blogja. A Granite Embedding Multilingual R2 néven debütáló modellek jelentősen szűkítik a nyelvi lefedettség és a modellméret közötti szakadékot.
Az egyik modell, a granite-embedding-97m-multilingual-r2, 97 millió paraméterrel rendelkezik, és 384 dimenziós beágyazásokat kínál. A másik, a granite-embedding-311m-multilingual-r2, egy teljes méretű, 311 millió paraméteres modell 768 dimenziós beágyazásokkal és Matryoshka dimenziótámogatással. Mindkét modell több mint 200 nyelvet támogat, 52 nyelv esetében pedig továbbfejlesztett lekérdezési minőséget nyújt, beleértve a magyar nyelvet is.
A nyelvi határok felszámolása
A kontextusablak 32 768 tokenre nőtt, ami 64-szeres növekedést jelent a R1 elődökhöz képest. Az új modellek programozási kód lekérdezését is lehetővé teszik kilenc programozási nyelven, mint például Python, Java és C++.
Az IBM szerint a modellek a sentence-transformers és transformers könyvtárakkal is azonnal használhatók, és egyetlen sornyi kódmódosítással beilleszthetők a LangChain, LlamaIndex, Haystack és Milvus keretrendszerekbe.
Evolúció a ModernBERT architektúrában
A R2 generáció alapjaitól újraépített ModernBERT kódoló architektúrára épül, amely a BERT eredeti tervezését ötvözi az elmúlt öt év transzformer kutatásainak eredményeivel. A 311M-es modell a Gemma 3 tokenizert használja, míg a 97M-es modell a GPT-OSS tokenizertől indul, majd egy kompakt, 180K tokenes szókészletre szűkíti, megőrizve a széles többnyelvű lefedettséget.
Az IBM hangsúlyozza, hogy a modelleket IBM által kurált, nyilvánosan elérhető és belsőleg generált adathalmazok keverékén képezték, szigorú minőségi és adatkezelési folyamatok mellett, és a 97 millió paraméteres modell 60,3 pontot ért el a MTEB Multilingual Retrieval teljesítményteszten 2024. márciusában.