Kutatás2026. máj. 20.frissítve: 06:30

Más nyelven rosszabbul diagnosztizálnak az orvosi LLM-ek — csak az o3 tartja a szintet

Az o3 kivételével mindegyik tesztelt modell jelentősen gyengébben teljesített francia nyelven, mint angolul, ami komoly aggályokat vet fel a klinikai alkalmazásukkal kapcsolatban.

Fotó: Enchanted Tools / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. május 20.

Megosztás

Jelentősen befolyásolja a diagnosztikai pontosságot és a klinikai érvelés minőségét a prompt nyelve a nagy nyelvi modelleknél — mutatja az ArXiv-en megjelent új kutatás. A tanulmány öt különböző LLM-et vizsgált angol és francia nyelven, 180 klinikai esetet elemezve 16 orvosi szakterületről.

A kutatók öt modellt – o3, DeepSeek-R1, GPT-4-Turbo, Llama-3.1-405B-Instruct és BioMistral-7B – vetettek össze. Az értékelést két orvos végezte egy 18 pontos skálán, figyelembe véve a diagnózis pontosságát és az érvelés minőségét is. Négy modell esetében az angol nyelvű teljesítmény szignifikánsan jobb volt, átlagosan 0,37 és 0,91 pont közötti különbséggel.

A nyelvi szakadék

Ez a szakadék az érvelés több aspektusára is kiterjedt, beleértve a differenciáldiagnózist, a logikai struktúrát és a belső érvényességet. A kutatók megállapították, hogy a nyelvi hatás a modellek teljesítményében jelentős szerepet játszik, és ennek figyelembevétele elengedhetetlen a klinikai alkalmazásokban.

Az o3 volt az egyetlen modell, amely nem mutatott jelentős nyelvi hatást, vagyis angol és francia nyelven is hasonlóan teljesített. Ez az eredmény rávilágít arra, hogy a modellek megbízhatósága más nyelveken még bizonytalan, és további alapos vizsgálatokat igényel, mielőtt széles körben alkalmaznák őket a klinikai döntéstámogatásban.

A pontosság kritikus tényezője

A kutatás hangsúlyozza, hogy az utasítások nyelve kritikus tényező lehet az LLM-ek klinikai alkalmazásakor. A DeepSeek-R1, GPT-4-Turbo, Llama-3.1-405B-Instruct és BioMistral-7B modelleknél is megfigyelhető volt a nyelvi hatás, ami azt jelenti, hogy az o3 modell 2024. április 15-én történő frissítése lesz az első lépés a többnyelvű értékelés felé.

tetszett a cikk? oszd meg →

Megosztás