Tadzsik iskolákban tesztelik a Soro AI-chatbotot — 40 ezer példánnyal finomhangolva
A Soro LLM-család tadzsik nyelvre optimalizált, és a Gemma 3 alapjaira épül, 1,9 milliárd tokennel tanult.

Soro néven új, tadzsik nyelvre specializált konverzációs LLM-családot mutatott be egy kutatócsoport. A modelleket kifejezetten Tadzsikisztán szűkös számítási és hálózati korlátaihoz tervezték, hogy valós körülmények között is bevethetők legyenek.
A Soro a nyílt súlyú Gemma 3 checkpointokra épül, és egy 1,9 milliárd tokenből álló, válogatott tadzsik nyelvű adathalmazon folytatták a betanítását. Az anyag szűrt webes szövegeket, PDF dokumentumokat és tantervhez igazított oktatási anyagokat tartalmazott. Ezt követően 40 ezer tadzsik tanárstílusú példán keresztül végezték el a felügyelt finomhangolást.
A tadzsik nyelv korlátozott lefedettsége miatt a kutatók új, tadzsik nyelvű benchmarkokat vezettek be, amelyek általános tudást, nyelvi kompetenciát, valamint iskolai és egyetemi felvételi vizsgák témakörét fedik le. Ezeket az új mérőeszközöket a Hugging Face-en tették közzé.
Az új benchmarkokon a Soro jelentősen felülmúlja az azonos méretű Gemma 3 alapmodelleket, miközben a standard angol nyelvű teszteken is erős teljesítményt nyújt. A kutatók azt is kimutatták, hogy a FP8 és INT4 kvantálás megőrzi a tadzsik nyelvű eredmények nagy részét, miközben csökkenti a memóriaigényt, ami lehetővé teszi az edge eszközökre való telepítést. Ez támogatja az oktatási szektorban zajló pilot projektet és a tervek szerint Tadzsikisztán iskoláiban történő bevezetést.