Új AI-mérce méri a radiológiai leleteket – 11,7%-kal jobb, mint az eddigiek
A VERT nevű új mérőszám a radiológusok értékelésével való korrelációt javítja, és nyílt forráskódú Qwen3 30B modell finomhangolásával akár 25%-os pontosságjavulást is elér.

A VERT nevű új, LLM-alapú mérőszám akár 11,7%-kal javítja a radiológusi ítéletekkel való korrelációt a korábbi legjobb megoldáshoz, a GREEN-hez képest — írja az ArXiv AI tanulmánya.
Ez a fejlesztés kulcsfontosságú, mert a radiológiai leletek értékelésére szolgáló meglévő, LLM-alapú metrikák, mint a RadFact és a FineRadScore, eddig főleg a mellkasröntgenfelvételekre fókuszáltak.
A kutatók széleskörű korrelációs elemzést végeztek, összehasonlítva a szakértői és a LLM-alapú értékeléseket. Nyílt és zárt forráskódú modelleket egyaránt vizsgáltak, különböző méretekben és érvelési képességekkel, két szakértő által annotált adathalmazon: a RadEval és a RaTE-Eval készleteken.
A szakértői ítéletek tükrében
A VERT mérőszámot a Qwen3 30B nyílt forráskódú modell finomhangolásával továbbfejlesztették. Mindössze 1300 betanítási mintával akár 25%-os pontosságjavulást is elértek a korrelációban.
A modellek együttes ereje
Az ensembling (modellek együttes alkalmazása) további 22,7%-os javulást hozott. A LLM-as-a-judge megközelítés, ellentétben a hagyományos ROUGE és BLEU metrikákkal, mélyebb szemantikai megértésre támaszkodik.
A kutatás részletesen elemzi, melyik prompt-modell konfigurációk érik el a legmagasabb korrelációt a szakértői ítéletekkel, és bemutatja a VERT működését. A modell nyílt forráskódú Qwen3 30B finomhangolása jelentős áttörést hoz a radiológiai leletek automatikus értékelésében, 2024. április 15-én publikálva az ArXiv oldalán.