ÉlőUtoljára: 1 órájaMa: 18
Kutatásfrissítve: 04:30

Más nyelven rosszabbul diagnosztizálnak az orvosi LLM-ek — csak az o3 tartja a szintet

Az o3 kivételével mindegyik tesztelt modell jelentősen gyengébben teljesített francia nyelven, mint angolul, ami komoly aggályokat vet fel a klinikai alkalmazásukkal kapcsolatban.

Más nyelven rosszabbul diagnosztizálnak az orvosi LLM-ek — csak az o3 tartja a szintet
Fotó: Fotó: Enchanted Tools / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Jelentősen befolyásolja a diagnosztikai pontosságot és a klinikai érvelés minőségét a prompt nyelve a nagy nyelvi modelleknél — mutatja az ArXiv-en megjelent új kutatás. A tanulmány öt különböző LLM-et vizsgált angol és francia nyelven, 180 klinikai esetet elemezve 16 orvosi szakterületről.

A kutatók öt modellt – o3, DeepSeek-R1, GPT-4-Turbo, Llama-3.1-405B-Instruct és BioMistral-7B – vetettek össze. Az értékelést két orvos végezte egy 18 pontos skálán, figyelembe véve a diagnózis pontosságát és az érvelés minőségét is. Négy modell esetében az angol nyelvű teljesítmény szignifikánsan jobb volt, átlagosan 0,37 és 0,91 pont közötti különbséggel.

A nyelvi szakadék

Ez a szakadék az érvelés több aspektusára is kiterjedt, beleértve a differenciáldiagnózist, a logikai struktúrát és a belső érvényességet. A kutatók megállapították, hogy a nyelvi hatás a modellek teljesítményében jelentős szerepet játszik, és ennek figyelembevétele elengedhetetlen a klinikai alkalmazásokban.

Az o3 volt az egyetlen modell, amely nem mutatott jelentős nyelvi hatást, vagyis angol és francia nyelven is hasonlóan teljesített. Ez az eredmény rávilágít arra, hogy a modellek megbízhatósága más nyelveken még bizonytalan, és további alapos vizsgálatokat igényel, mielőtt széles körben alkalmaznák őket a klinikai döntéstámogatásban.

A pontosság kritikus tényezője

A kutatás hangsúlyozza, hogy az utasítások nyelve kritikus tényező lehet a LLM-ek klinikai alkalmazásakor. A DeepSeek-R1, GPT-4-Turbo, Llama-3.1-405B-Instruct és BioMistral-7B modelleknél is megfigyelhető volt a nyelvi hatás, ami azt jelenti, hogy az o3 modell 2024. április 15-én történő frissítése lesz az első lépés a többnyelvű értékelés felé.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom