Kutatás2026. márc. 31.frissítve: 02:45

A robotok is megtanulhatják a statisztikai csalást

Jaemin Han szerint a p-hackinggal a kutatók a hipotézisük igazolására törekednek, és ennek során akár 40%-ra is növelhetik a hamis pozitív eredmények arányát.

Fotó: Fotó: Nicolás Beltrán López / Unsplash

forrás: Towards Data Science·AI Forradalom szerk.·2026. március 31.

Megosztás

Jaemin Han a Towards Data Science című cikkében a p-hackinget, vagyis a statisztikai eredmények manipulálását mutatja be, és kiemeli, hogy a kutatók akár 40%-ra is növelhetik a hamis pozitív eredmények arányát. A p-hacking lényege, hogy a kutató olyan döntéseket hoz, amik a korábban nem szignifikáns hipotézis tesztjét szignifikánssá teszik – tipikusan a 0,05 szignifikancia szint alá csökkentik a p-értéket.

A cikk bemutatóként hivatkozik a 2023-as Big Little Lies tanulmányra, amely számos gyakorlati p-hacking módszert felsorol. Az egyik példa a „ghost variables” – ha a kutató tíz különböző mérőszámot vizsgál, de csak egyen, amely véletlenül szignifikáns, a többit elrejtve publikálja az eredményt. A szimulációk azt mutatják, hogy ez a gyakorlat 5% helyett szinte 40% hamis pozitív arányt eredményezhet.

Egy másik módszer az optional stopping, ahol a kutató több mintát vesz, és közben megállítja a vizsgálatot, amikor a p-érték véletlenül alacsonyabb lesz. A cikk szerint ez a gyakorlat is jelentősen növeli a hamis pozitív eredmények számát, különösen, ha kisebb lépésekben állapítják meg a mintát.

Az outlier kizárásával és a skála újratermészetével a kutató szándékosan alkalmazhat különböző outlier-eltávolítási technikákat, hogy a p-értékét 0,04 alá csökkentse. A Big Little Lies kutatása szerint 39 különböző outlier-azonosítási módszer létezik, és a szubjektív választás ezek közül a hamis pozitív arányt jelentősen emelheti.

A cikk végül felveti a kérdést, hogy a mesterséges intelligencia, különösen a nagy nyelvi modellek, miként befolyásolhatják a p-hackinget. Az AI képes lehet a statisztikai útmutatókat automatizálni, de ugyanakkor egy nagyobb kockázatot is hordoz, ha a modellek a kutatók szándékát vagy a kutatási folyamat hibáit reprodukálják. A jövőben a tudományos integritás védelme érdekében kulcsfontosságú lesz, hogy az AI rendszereket átlátható és ellenőrizhető módon alkalmazzuk, különben a statisztikai csalás robotikus formához fűződik majd.

tetszett a cikk? oszd meg →

Megosztás