ÉlőUtoljára: 55 perceMa: 13
Kutatásfrissítve: 06:50

AI-alapú orvosi diagnózisok: A legfejlettebb modellek is elbuknak kritikus helyzetekben

A legfejlettebb orvosi LLM-ek is súlyos hibákat véthetnek kritikus klinikai helyzetekben. 11 kortárs LLM-et teszteltek 690 klinikailag megalapozott forgatókönyvön keresztül.

AI-alapú orvosi diagnózisok: A legfejlettebb modellek is elbuknak kritikus helyzetekben
Fotó: Fotó: Irwan / Unsplash
forrás: ArXiv NLP·AI Forradalom szerk.·
Megosztás

Az orvosi LLM-ek biztonságát, robusztusságát és méltányosságát vizsgáló új keretrendszer szerint a legfejlettebb rendszerek is súlyos hibákat véthetnek kritikus klinikai helyzetekben. A kutatók 11 kortárs LLM-et teszteltek 690, klinikailag megalapozott forgatókönyvön keresztül, kilenc fő területet és több mint 150 alkategóriát lefedve. A tesztelés során a modellek válaszait egy hét dimenziós értékelési rendszerrel vizsgálták, LLM-alapú pontozással és emberi felügyelettel kombinálva — írja az arXiv.

Az eredmények jelentős teljesítménybeli eltéréseket mutattak, az átlagos pontszámok 0,791 és 0,984 között mozogtak. Több, egyébként jól teljesítő rendszer is teljes kudarcot vallott biztonságkritikus helyzetekben, ami arra utal, hogy az átlagos pontosság elfedheti a klinikai szempontból releváns kockázatokat. A legmagasabb pontszámot elérő rendszerek, mint a X-BAI, a GPT-5 és a Claude Opus 4.1, 0,97 feletti eredményt értek el alacsony szóródással, de a teljesítmény jelentősen eltért a különböző területek között.

Kapcsolódó: GPT-2 toxikus kimenet

A méltányossággal kapcsolatos feladatoknál a demográfiai módosítások 10-20%-os hibanövekedést eredményeztek. Az emberi értékelők olyan klinikailag releváns hibákat azonosítottak, amelyeket az automatizált értékelés nem észlelt. A kutatás rávilágít arra, hogy a teljesítménybeli szóródás és a legrosszabb eseti hibák sokkal informatívabb mutatói a megbízhatóságnak, mint az átlagos pontosság.

Kapcsolódó: LLM-ek biztonsági tesztje

A tanulmány szerint a hibrid értékelési megközelítések, amelyek ötvözik az automatizálást a klinikusok felügyeletével, elengedhetetlenek a hiteles biztonsági értékeléshez. A keretrendszer célja, hogy segítsen a fejlesztőknek és az egészségügyi szakembereknek jobban megérteni és kezelni a LLM-ekben rejlő kockázatokat a klinikai gyakorlatban.

Kapcsolódó: Orvosi LLM-ek hiányosságai

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom