Az AI fejleszti az AI-t: új módszert talált a bizonytalanság mérésére
A mesterséges intelligencia által generált új UQ-módszerek akár 6,7%-os javulást hoztak a ROC-AUC mutatóban kilenc adathalmazon, felülmúlva a manuálisan tervezett alapmodelleket.

A nagyméretű nyelvi modellek (LLM) bizonytalanságmérési (UQ) módszereit eddig jellemzően kézzel, szakértői tudás és heurisztikák alapján tervezték — írja az ArXiv NLP. Ez a megközelítés azonban korlátozta a skálázhatóságot és az általánosíthatóságot, ami miatt a kutatók új, automatizált megoldást kerestek.
A friss kutatásban egy LLM-alapú evolúciós keresőalgoritmust alkalmaztak, amely önfelügyelt UQ-módszereket fedezett fel, Python programok formájában. Ez a módszer jelentős előrelépést jelent, mivel a mesterséges intelligencia képes volt önállóan olyan eljárásokat kidolgozni, amelyek felülmúlják az ember által tervezett alapmodelleket.
Az atomi állítások ellenőrzésének feladatában a kifejlesztett módszerek robusztusan teljesítettek, még elosztott adatokon is. A kvalitatív elemzés szerint a különböző LLM-ek eltérő evolúciós stratégiákat alkalmaztak: a Claude modellek nagy jellemzőszámú lineáris becslőket terveztek, míg a Gpt-oss-120B egyszerűbb, értelmezhetőbb pozícióalapú súlyozási sémák felé gravitált.
Meglepő módon csak a Sonnet 4.5 és az Opus 4.5 modellek tudták megbízhatóan kihasználni a megnövelt módszerkomplexitást a teljesítmény javítására. Az Opus 4.6 esetében váratlanul alacsonyabb teljesítményt tapasztaltak összetettebb módszerekkel, ami további vizsgálatokat igényel.