8 milliárd paraméteres Granite-4.1-8B modellt mutatott be az IBM
A Granite-4.1-8B a Granite-4.1-8B-Base alapmodellből finomhangolt változat, amely nyílt forráskódú és belső, szintetikus adatkészleteket is felhasznál.

Új, 8 milliárd paraméteres, hosszú kontextusú instruct modellt mutatott be az IBM, a Granite-4.1-8B-t — írja a Reddit r/LocalLLaMA fóruma. A modell a gyártó szerint jelentősen javult a korábbi Granite 4.1 modellekhez képest.
Az IBM a Granite-4.1-8B-Base modellből finomhangolta az új verziót. Ehhez nyílt forráskódú, megengedő licenccel rendelkező utasításkészleteket és belsőleg gyűjtött szintetikus adatkészleteket egyaránt felhasználtak.
Az új modell fejlesztésének alapja a korábbi modellek továbbfejlesztett betanítás utáni folyamata volt, amely felügyelt finomhangolást és megerősítéses tanuláson alapuló igazítást is magában foglal.
Az áttörés kapuja
Ezek a fejlesztések az IBM szerint jobb eszközhívási, utasításkövetési és csevegési képességeket eredményeznek. A modell fejlesztése során az IBM célja az volt, hogy egy olyan modellt hozzon létre, amely képes hatékonyabban kezelni a komplex feladatokat.
A modell új dimenziója
A Granite-4.1-8B modell a Hugging Face platformon keresztül érhető el, ahol részletesebb információk is találhatók a technikai specifikációiról és alkalmazási lehetőségeiről, 2024. április 15-étől.