Könnyű hibrid modell oldja meg a tádzsik-perzsa lexikai egyeztetést 96,4%-os pontossággal
A kutatók által fejlesztett könnyű hibrid megoldás felülmúlja a nagyobb, többnyelvű transzformátorokat a specifikus lexikai egyeztetésben, miközben hatékonyan futtatható egyszerűbb hardveren is.

Új lexikai adatbázist és egy hibrid modellt mutattak be tádzsik és perzsa nyelvek közötti megfeleltetésre, amely jelentősen javíthatja az alacsony erőforrású nyelvi feladatok pontosságát. A TajPersLexon nevű adatbázis 40 112 gondosan válogatott szó- és rövid kifejezéspárt tartalmaz – írja az arXiv-on megjelent tanulmány.
Az adatbázist kifejezetten a nyelvek közötti lexikai lekérdezésre, átírásra és igazításra tervezték, különösen olyan környezetekben, ahol kevés nyelvi erőforrás áll rendelkezésre. A kutatók egy átfogó, csak CPU-n futtatható összehasonlító tesztet végeztek, amelyben három módszertani családot vizsgáltak: egy könnyű hibrid folyamatot, neurális szekvencia-szekvencia modelleket és lekérdezési módszereket.
Az értékelés szerint a feladat alapvetően megoldható, a neurális és lekérdezési alapmodellek 98-99%-os pontosságot értek el az első találatokban. Fontos megállapítás, hogy míg a nagy, többnyelvű mondattranszformátorok elbuknak ezen a pontos lexikai egyeztetési feladaton, addig a kutatók értelmezhető hibrid modellje kedvező pontosság-hatékonyság kompromisszumot kínál. A modell az optikai karakterfelismerés (OCR) utókorrekciós feladatában 96,4%-os pontosságot ért el.
A tanulmány szerzői szerint a TajPersLexon adatbázis, a kód és a modellek nyilvánosan elérhetővé válnak, ezzel segítve a további kutatásokat a tádzsik és perzsa nyelvek közötti nyelvi feldolgozás területén. Ez a lépés különösen fontos, mivel a perzsa, amelyet Iránban, Afganisztánban és Tádzsikisztánban is hivatalosan használnak, pluricentrikus nyelv, így a nyelvi különbségek áthidalása kulcsfontosságú.