Frissítve: 15 perce·Ma: 50
Alkalmazások
AI által generált szöveg

Új AI-mérce méri a radiológiai leleteket – 11,7%-kal jobb, mint az eddigiek

A VERT nevű új mérőszám a radiológusok értékelésével való korrelációt javítja, és nyílt forráskódú Qwen3 30B modell finomhangolásával akár 25%-os pontosságjavulást is elér.

Új AI-mérce méri a radiológiai leleteket – 11,7%-kal jobb, mint az eddigiek
Fotó: Vitaly Gariev / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

A VERT nevű új, LLM-alapú mérőszám akár 11,7%-kal javítja a radiológusi ítéletekkel való korrelációt a korábbi legjobb megoldáshoz, a GREEN-hez képest — írja az ArXiv AI tanulmánya.

Ez a fejlesztés kulcsfontosságú, mert a radiológiai leletek értékelésére szolgáló meglévő, LLM-alapú metrikák, mint a RadFact és a FineRadScore, eddig főleg a mellkasröntgenfelvételekre fókuszáltak.

A kutatók széleskörű korrelációs elemzést végeztek, összehasonlítva a szakértői és a LLM-alapú értékeléseket. Nyílt és zárt forráskódú modelleket egyaránt vizsgáltak, különböző méretekben és érvelési képességekkel, két szakértő által annotált adathalmazon: a RadEval és a RaTE-Eval készleteken.

A szakértői ítéletek tükrében

A VERT mérőszámot a Qwen3 30B nyílt forráskódú modell finomhangolásával továbbfejlesztették. Mindössze 1300 betanítási mintával akár 25%-os pontosságjavulást is elértek a korrelációban.

A modellek együttes ereje

Az ensembling (modellek együttes alkalmazása) további 22,7%-os javulást hozott. A LLM-as-a-judge megközelítés, ellentétben a hagyományos ROUGE és BLEU metrikákkal, mélyebb szemantikai megértésre támaszkodik.

A kutatás részletesen elemzi, melyik prompt-modell konfigurációk érik el a legmagasabb korrelációt a szakértői ítéletekkel, és bemutatja a VERT működését. A modell nyílt forráskódú Qwen3 30B finomhangolása jelentős áttörést hoz a radiológiai leletek automatikus értékelésében, 2024. április 15-én publikálva az ArXiv oldalán.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom