LLM-ekkel oldják meg az orvosi adatok sémageneralizációs problémáját
A gépi tanulás eddig nehezen birkózott meg a változatos orvosi sémákkal, de most egy új, LLM-alapú megközelítés ígér áttörést a demencia diagnosztikájában.

A táblázatos adatok gépi tanulása régóta küzd a sémageneralizáció korlátaival, mivel a rendszerek nem értik kellőképpen a strukturált változók szemantikáját. Ez a probléma különösen élesen jelentkezik a klinikai orvoslásban, ahol az elektronikus egészségügyi nyilvántartások (EHR) sémái jelentősen eltérnek egymástól — írja az arXiv-on megjelent előnyomtatott tanulmány.
A kutatók egy új módszert, a Schema-Adaptive Tabular Representation Learninget javasolják, amely nagyméretű nyelvi modelleket (LLM) használ átvihető táblázatos beágyazások létrehozására. A megközelítés lényege, hogy a strukturált változókat szemantikus, természetes nyelvi állításokká alakítja, majd egy előre betanított LLM-mel kódolja azokat.
A sémageneralizáció áttörése
Ez a technika lehetővé teszi a zero-shot illesztést ismeretlen sémák között, kézi funkciótervezés vagy újratanítás nélkül. A kutatók az encodert egy multimodális keretrendszerbe integrálták a demencia diagnosztizálására, ahol táblázatos és MRI adatokat kombináltak.
Skálázható megoldás a gyakorlatban
A NACC és ADNI adatkészleteken végzett kísérletek állami szintű teljesítményt mutattak, és sikeres zero-shot átvitelt értek el ismeretlen sémákra a kutatók állítása szerint. A tanulmány szerint a módszer jelentősen felülmúlja a klinikai alapmodelleket, beleértve a neurológusokat is, retrospektív diagnosztikai feladatokban.
A kutatók a 2024. március 15-én publikált tanulmányban részletezik a módszer részleteit és az eredményeket a NACC és ADNI adatkészletek vizsgálata során.