SHIELD: 1394 klinikai jegyzetből álló adatkészlet segíti az orvosi AI-t

Új adatkészletet és desztillált kis nyelvi modelleket (SLM) mutatott be egy kutatócsoport, amelyek célja a klinikai szövegek anonimizálása, megkönnyítve ezzel az elektronikus egészségügyi nyilvántartások (EHR) másodlagos felhasználását — írja az arXiv-on megjelent tanulmány.

A SHIELD névre keresztelt adatkészletet diverzitás-mintavételezéssel hozták létre, emberi felügyelettel. A kutatók négy nagy nyelvi modellt (LLM) értékeltek a teljesítmény felső határának meghatározására, majd ezek képességeit helyben telepíthető SLM-ekbe desztillálták. Ez a megközelítés lehetővé teszi a betegadatok (PHI) biztonságos kezelését anélkül, hogy felhőalapú API-kra kellene támaszkodni, ami jelentős költség- és adatkezelési előnyökkel jár.

A meglévő nyilvános teljesítménytesztek, mint az i2b2 2006/2014, több mint egy évtizedesek, és nem tükrözik a modern klinikai narratívák szemantikai és demográfiai sokféleségét. Bár a LLM-ek kiemelkedő teljesítményt nyújtanak a zero-shot extrakcióban, bevezetésüket az adatközponti költségek és a PHI-adatok felhőalapú API-kból való kizárása akadályozza.

A SHIELD adatkészlet és a belőle származtatott SLM-ek megoldást kínálnak erre a problémára, lehetővé téve a klinikai adatok hatékony és biztonságos anonimizálását. A kutatók a Frechet-eloszlásanalízist is alkalmazták a modellek értékelésére.