A szintetikus átirás 3,4 NPM-es nyereséget hoz a portugál nyelvmodelleknek
Thales Sales Almeida és munkatársai által végzett kutatás szerint a szintetikus átirányítás legnagyobb hatása a nagy minőségű adatokon érhető el.

Thales Sales Almeida és két társa, Rodrigo Nogueira és Hélio Pedrini 2026 március 25-én publikálták tanulmányukat, amelyben a szintetikus átirás hatását vizsgálták a portugál AI nyelvi modellek teljesítményére. A 7 B paraméteres modell 3,4 NPM‑es javulást ért el, amikor magas minőségű adatot írtak át, míg alacsony minőségű adat esetén csak 0,5 NPM‑es nyereség származott. Ugyanazt a vizsgálatot a 1,1 B paraméteres modellnél is elvégezték, ahol a hatás sokkal gyengébb volt.
Az AI nyelvi modellek előképzéséhez egyre gyakrabban használnak szintetikus adatot, különösen dokumentumok átirásával, de eddigi kutatások túlnyomórészt angol nyelvre koncentráltak, és nem különítették el a forrásadatok minőségét. A portugál nyelvre fókuszáló, minőséget kontrolláló vizsgálat ezért új fényt vet a technika valós potenciáljára.
A szerzők a ClassiCC‑PT korpuszból két, egyenként 10 milliárd tokenből álló részhalmazt állítottak össze, az egyik magas, a másik alacsony STEM‑ és oktatási minősítéssel. Mindkét részhalmazt négy stílusra átírták egy 7 B paraméteres instrukcióra finomhangolt modell segítségével, így körülbelül 40 milliárd szintetikus token keletkezett feltételként. Az így kapott adatot a két angol‑centrikus bázismodellre (1,1 B és 7 B) tanították, majd a PoETa V2, egy 44 feladatból álló portugál benchmarkon értékelték.
Az eredmények azt mutatják, hogy a szintetikus átirás főként a forrásadatok minőségének szorzójaként működik: magas minőségű adatok esetén jelentős teljesítményjavulás érhető el, míg alacsony minőségű adatoknál a hatás elenyésző. Emellett a hatás erősen függ a modell méretétől – a 7 B modellnél a nyereség 3,4 NPM, míg az 1,1 B modellnél a különbség szinte elmosódik.
A tanulmány egy pillanatképet nyújt a szintetikus átirás hatásairól, de a technika hosszú távú hatásairól vagy más nyelveken való alkalmazásáról a szerzők még nem közöltek részleteket; a részletek egyelőre nem ismertek.