Kutatás2026. márc. 28.frissítve: 03:05

A finn orvosi átiratokhoz fine-tuned LLaMA 3.1-8B modellt alkalmaztak

A Metropolia University of Applied Sciences hallgatói által készített klinikai beszélgetések korpuszán finomították a modellt

Fotó: smallbox / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. március 28.

Megosztás

A Metropolia University of Applied Sciences hallgatói által összeállított szimulált klinikai beszélgetések korpuszán finomították a LLaMA 3.1-8B modellt, hogy orvosi átiratokat készítsen finn nyelven. A modell nyolc milliárd paraméterrel rendelkezik, és a finomítást hétföldös keresztvalidációval értékelték. A mérőszámok: BLEU = 0.1214, ROUGE‑L = 0.4982, BERTScore F1 = 0.8230. A pontszámok alacsony n‑gram átfedést, de erős szemantikai hasonlóságot jeleznek a referencia átiratokhoz képest.

A klinikai dokumentáció pontossága kulcsfontosságú a betegbiztonság és a diagnózis szempontjából, miközben az EHR‑rendszerek adminisztratív terhe jelentős kiégést okoz az orvosoknak. Ez a probléma különösen súlyos alacsony erőforrású nyelveken, mint a finn, ahol kevés nyelvi eszköz áll rendelkezésre. A tanulmány célja, hogy egy domain‑specifikus NLP‑modell segítségével csökkentse a dokumentációs terhet és javítsa a fordítási minőséget.

A finomítás során kontrollált előfeldolgozást és optimalizációs lépéseket alkalmaztak, hogy a modell a beszélt orvosi szöveg finom nyelvi sajátosságait is megértse. A használatban lévő adatbázis egy validált, szimulált beszélgetéseket tartalmazó, viszonylag kicsi korpusz, amelynek minőségét a hallgatók ellenőrizték. A hétföldös keresztvalidáció biztosította, hogy a teljesítmény mérőszámok ne csak egyetlen adathalmazon alapuljanak.

A kutatók szerint a tanulmány bizonyítja, hogy a nagy nyelvi modellek finomhangolása hatékony módszer a finn nyelvű orvosi diskurzus feldolgozására, és egy adatvédelmi szempontból érzékeny, domain‑specifikus LLM alkalmazásának megvalósíthatóságát is alátámasztja. A megközelítés nyitott kaput ad a hasonló alacsony erőforrású nyelveken való alkalmazás előtt.

A tanulmány a jövőbeni kutatásokra irányuló javaslatokat is tartalmaz, például a modell valós klinikai adatokon való tesztelését és az EHR‑rendszerekkel való integrációt. A további fejlesztések során a kutatók azt várják, hogy a modell még pontosabb szemantikai egyezést érjen el, miközben megőrzi a magas adatvédelmi szintet.

tetszett a cikk? oszd meg →

Megosztás