Alkalmazások2026. ápr. 8.frissítve: 08:26

Új AI-mérce méri a radiológiai leleteket – 11,7%-kal jobb, mint az eddigiek

A VERT nevű új mérőszám a radiológusok értékelésével való korrelációt javítja, és nyílt forráskódú Qwen3 30B modell finomhangolásával akár 25%-os pontosságjavulást is elér.

Fotó: Vitaly Gariev / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 8.

Megosztás

A VERT nevű új, LLM-alapú mérőszám akár 11,7%-kal javítja a radiológusi ítéletekkel való korrelációt a korábbi legjobb megoldáshoz, a GREEN-hez képest — írja az ArXiv AI tanulmánya.

Ez a fejlesztés kulcsfontosságú, mert a radiológiai leletek értékelésére szolgáló meglévő, LLM-alapú metrikák, mint a RadFact és a FineRadScore, eddig főleg a mellkasröntgenfelvételekre fókuszáltak.

A kutatók széleskörű korrelációs elemzést végeztek, összehasonlítva a szakértői és az LLM-alapú értékeléseket. Nyílt és zárt forráskódú modelleket egyaránt vizsgáltak, különböző méretekben és érvelési képességekkel, két szakértő által annotált adathalmazon: a RadEval és a RaTE-Eval készleteken.

A szakértői ítéletek tükrében

A VERT mérőszámot a Qwen3 30B nyílt forráskódú modell finomhangolásával továbbfejlesztették. Mindössze 1300 betanítási mintával akár 25%-os pontosságjavulást is elértek a korrelációban.

A modellek együttes ereje

Az ensembling (modellek együttes alkalmazása) további 22,7%-os javulást hozott. Az LLM-as-a-judge megközelítés, ellentétben a hagyományos ROUGE és BLEU metrikákkal, mélyebb szemantikai megértésre támaszkodik.

A kutatás részletesen elemzi, melyik prompt-modell konfigurációk érik el a legmagasabb korrelációt a szakértői ítéletekkel, és bemutatja a VERT működését. A modell nyílt forráskódú Qwen3 30B finomhangolása jelentős áttörést hoz a radiológiai leletek automatikus értékelésében, 2024. április 15-én publikálva az ArXiv oldalán.

tetszett a cikk? oszd meg →

Megosztás