Kutatás2026. máj. 14.frissítve: 09:50

Kevesebb adattal is hatékonyan metsz a CDVM modell: robusztusabb a Shapley-alapú módszereknél

A Constraint-Data-Value-Maximization (CDVM) megközelítés hatékonyabban használja fel az adatattribúciókat az adatmetszéshez, különösen akkor, ha csak korlátozott mennyiségű adat áll rendelkezésre.

Fotó: Fotó: Stephen Dawson / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. május 14.

Megosztás

Az adatok értékelése és a modell viselkedésének a betanítási adatokhoz való hozzárendelése egyre fontosabb kutatási terület. Ennek egyik bevett módszere az adatok eltávolítása, amikor alacsony vagy magas értékű adatpéldányokat törölnek, majd értékelik a módosított adathalmazon betanított modell teljesítményét — írja az arXiv:2605.11312v1 számú tanulmány.

Sok jelenlegi tanulmány Shapley-alapú adatértékeket használ ehhez a feladathoz. Azonban az új kutatás rámutat, hogy ezek az adatértékek nem optimálisan alkalmasak az alacsony értékű adatok metszésére, ha már csak korlátozott mennyiségű adat maradt.

A probléma orvoslására vezették be a Constraint-Data-Value-Maximization (CDVM) megközelítést. Ez a módszer hatékonyan használja fel az adatattribúciókat az adatmetszéshez, különösen alacsony adatmennyiségű forgatókönyvekben. A metszést egy korlátozott optimalizálási feladatként kezeli, amely maximalizálja a teljes befolyást és bünteti a túlzott tesztenkénti hozzájárulásokat.

A CDVM robusztus teljesítményt nyújt, még akkor is, ha az adatoknak csak egy kis töredékét tartják meg — állítják a kutatók. Az OpenDataVal teljesítményteszten a CDVM erős teljesítményt és versenyképes futási időt mutatott be.

A módszer előnyomtatott formában jelent meg az arXiv preprint szerverén, a 2605.11312v1 azonosító alatt.

tetszett a cikk? oszd meg →

Megosztás