Modellek & LLM2026. máj. 28.frissítve: 07:30

Tadzsik iskolákban tesztelik a Soro AI-chatbotot — 40 ezer példánnyal finomhangolva

A Soro LLM-család tadzsik nyelvre optimalizált, és a Gemma 3 alapjaira épül, 1,9 milliárd tokennel tanult.

Fotó: Fotó: Hulki Okan Tabak / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 28.

Megosztás

Soro néven új, tadzsik nyelvre specializált konverzációs LLM-családot mutatott be egy kutatócsoport. A modelleket kifejezetten Tadzsikisztán szűkös számítási és hálózati korlátaihoz tervezték, hogy valós körülmények között is bevethetők legyenek.

A Soro a nyílt súlyú Gemma 3 checkpointokra épül, és egy 1,9 milliárd tokenből álló, válogatott tadzsik nyelvű adathalmazon folytatták a betanítását. Az anyag szűrt webes szövegeket, PDF dokumentumokat és tantervhez igazított oktatási anyagokat tartalmazott. Ezt követően 40 ezer tadzsik tanárstílusú példán keresztül végezték el a felügyelt finomhangolást.

A tadzsik nyelv korlátozott lefedettsége miatt a kutatók új, tadzsik nyelvű benchmarkokat vezettek be, amelyek általános tudást, nyelvi kompetenciát, valamint iskolai és egyetemi felvételi vizsgák témakörét fedik le. Ezeket az új mérőeszközöket a Hugging Face-en tették közzé.

Az új benchmarkokon a Soro jelentősen felülmúlja az azonos méretű Gemma 3 alapmodelleket, miközben a standard angol nyelvű teszteken is erős teljesítményt nyújt. A kutatók azt is kimutatták, hogy a FP8 és INT4 kvantálás megőrzi a tadzsik nyelvű eredmények nagy részét, miközben csökkenti a memóriaigényt, ami lehetővé teszi az edge eszközökre való telepítést. Ez támogatja az oktatási szektorban zajló pilot projektet és a tervek szerint Tadzsikisztán iskoláiban történő bevezetést.

tetszett a cikk? oszd meg →

Megosztás