LLM-ek buktatják le a gépi tanulás módszertani hibáit: adatszivárgást találtak
A gépi tanulási kutatások megbízható értékelése kulcsfontosságú, de a módszertani hibák, különösen az adatszivárgás, gyakran aláássák a közölt eredmények érvényességét.

Nagy nyelvi modellek (LLM) képesek lehetnek a gépi tanulási kutatások módszertani hibáinak, például az adatszivárgásnak a felismerésére — derül ki egy friss, előnyomtatott tanulmányból, amelyet az arXiv kutatói tettek közzé.
A kutatók azt vizsgálták, hogy a LLM-ek független analitikai ügynökként működhetnek-e a publikált tanulmányokban található ilyen jellegű problémák azonosításában. Esettanulmányként egy gesztusfelismerő tanulmányt elemeztek, amely közel tökéletes pontosságot jelentett egy kis, emberközpontú adathalmazon.
A gesztusfelismerő tanulmány értékelési protokollja a téma szintjén adatszivárgást mutatott, mivel a betanító és tesztelő felosztások nem voltak függetlenek. Ez azt jelenti, hogy a modell olyan adatokon is tanulhatott, amelyek a tesztkészletben is szerepeltek, így a valós teljesítménye torzult.
A gépi tanulás rejtett veszélyei
A kutatók ezután azt vizsgálták, hogy ezt a hibát hat, modern LLM képes-e önállóan felismerni. A modellek az eredeti tanulmányt elemezték előzetes kontextus nélkül, azonos prompt segítségével.
Az adatok árnyékában
Mind a hat 'state-of-the-art' LLM konzisztensen hibásnak találta az értékelést, és a jelentett teljesítményt a nem független adatfelosztásnak, vagyis az adatszivárgásnak tulajdonította a tanulmány szerint. Az eredmények azt sugallják, hogy a LLM-ek potenciálisan fontos szerepet játszhatnak a gépi tanulási kutatások minőségellenőrzésében. Az arXiv:2604.14161v1 számú előnyomtatott tanulmány részletesebben is bemutatja a módszertant és az eredményeket, 2024. április 10-én elérhetővé vált.