A domain-specifikus gépi fordítás és minőségértékelés rendszerek fejlesztése
Javad Pourmostafa Roshan Sharami kutató szerint a gépi fordítás minősége jelentősen javulhat, ha a rendszereket speciális domainekhez igazítják.

Javad Pourmostafa Roshan Sharami új doktori disszertációja a gépi fordítás (MT) és minőségértékelés (QE) rendszereinek domain-specifikus fejlesztését dolgozza fel. A 2603.24955 című, 2026. március 26-án publikált műben bemutatott kutatás szerint a MT és QE általános területeken jól teljesíthetnek, de a domain-egyeztetés hiányában jelentősen romlanak a pontosságok.
A disszertáció első fejezete egy hasonlóság-alapú adatválasztási módszert mutat be, amely szerint kis, célzott, in-domain adatcsoportok jobb eredményeket hoznak, mint a nagyobb, általános adatbázisok, miközben alacsonyabb számítási költséget igényelnek. A második fejezetben egy szakaszos QE‑tréning pipeline kerül bemutatásra, amely kombinálja a domain-adaptációt könnyű adatbővítéssel. Ezzel a módszerrel javul a teljesítmény különböző nyelveken, akár zero‑shot, akár cross‑lingual esetekben is.
Az alfejezetek a subword tokenizáció és a szókincs szerepét vizsgálják finomhangolás közben. A tokenizáció és a szókincs összehangolt beállítása stabilabb tanulást és jobb fordítási minőséget eredményez, míg a nem egyező konfigurációk csökkentik a teljesítményt. A végső fejezetben egy QE‑vezérelt in‑context learning módszert fejlesztenek nagy nyelvi modellekhez, amely képes kiválasztani a legjobb példákat a fordítási minőség javítására anélkül, hogy a paramétereket módosítanák. Ez a megközelítés referencifüggetlen is, csökkentve a referenciahalmazra való függőséget.
A kutatás eredményei azt mutatják, hogy a domain-adaptáció sikeressége szorosan függ az adatválasztástól, a reprezentációtól és a hatékony adaptációs stratégiáktól. A disszertáció tehát konkrét módszereket kínál az MT és QE rendszerek megbízható működtetésére speciális területeken.
Jelenleg a publikációt még csak az arXiv-re tesztelik, de a szerzők tervezik, hogy a következő hónapokban a módszereket nyílt forráskódú keretrendszerben tesztelik és publikálják a kódot. A szakmai közösségnek érdemes figyelemmel kísérni a következő konferenciákat, ahol a domain-specifikus MT és QE új megközelítéseket mutathatnak be.