DeepSeek‑R1, OpenBioLLM‑Llama3 és Qwen 3.5 egyaránt képes klinikai szöveget generálni
A kutatók a mentális egészségügyi adatok hiányát szintetikus szöveggenerálással próbálják enyhíteni.

Az arXiv preprint (2604.27014v1) a szintetikus mentális egészségügyi adatok generálására fókuszál — írja az arXiv.
Adathiány és adatvédelem
A magas minőségű, annotált orvosi adatok hiánya különösen a mentális egészség területén akadályozza a robusztus gépi tanulási modellek fejlesztését, miközben a szigorú adatvédelmi szabályozások korlátozzák a valós adatok megosztását.
LLM‑alapú szintetikus jelentésgenerálás
A kutatók három nyílt forráskódú LLM-et – DeepSeek‑R1, OpenBioLLM‑Llama3 és Qwen 3.5 – használtak szintetikus mentális egészségügyi értékelő jelentések előállítására, melyek ICD‑10 kódokra vannak feltételesen beállítva.
A generált szövegek minőségét egy háromdimenziós keretben mérik: szemantikai hűség, lexikális diverzitás és adatvédelmi/plágium‑kockázat.
Az eredmények azt mutatják, hogy mindhárom modell képes klinikai stílusú diagnosztikai szöveget előállítani a keretben, bár a konkrét pontszámok a publikációban nincsenek részletezve; a szerzők úgy tesznek, hogy a lehetséges módösszeomlást és memorizációt is figyelembe veszik.
A privacy/plagiarism dimenzió kiemelt figyelmet kapott a Qwen 3.5 modellnél.