Kutatás2026. máj. 1.frissítve: 08:30

DeepSeek‑R1, OpenBioLLM‑Llama3 és Qwen 3.5 egyaránt képes klinikai szöveget generálni

A kutatók a mentális egészségügyi adatok hiányát szintetikus szöveggenerálással próbálják enyhíteni.

Fotó: Vitaly Gariev / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 1.

Megosztás

Az arXiv preprint (2604.27014v1) a szintetikus mentális egészségügyi adatok generálására fókuszál — írja az arXiv.

Adathiány és adatvédelem

A magas minőségű, annotált orvosi adatok hiánya különösen a mentális egészség területén akadályozza a robusztus gépi tanulási modellek fejlesztését, miközben a szigorú adatvédelmi szabályozások korlátozzák a valós adatok megosztását.

LLM‑alapú szintetikus jelentésgenerálás

A kutatók három nyílt forráskódú LLM-et – DeepSeek‑R1, OpenBioLLM‑Llama3 és Qwen 3.5 – használtak szintetikus mentális egészségügyi értékelő jelentések előállítására, melyek ICD‑10 kódokra vannak feltételesen beállítva.

A generált szövegek minőségét egy háromdimenziós keretben mérik: szemantikai hűség, lexikális diverzitás és adatvédelmi/plágium‑kockázat.

Az eredmények azt mutatják, hogy mindhárom modell képes klinikai stílusú diagnosztikai szöveget előállítani a keretben, bár a konkrét pontszámok a publikációban nincsenek részletezve; a szerzők úgy tesznek, hogy a lehetséges módösszeomlást és memorizációt is figyelembe veszik.

A privacy/plagiarism dimenzió kiemelt figyelmet kapott a Qwen 3.5 modellnél.

tetszett a cikk? oszd meg →

Megosztás