Kevesebb adattal is hatékonyan metsz a CDVM modell: robusztusabb a Shapley-alapú módszereknél
A Constraint-Data-Value-Maximization (CDVM) megközelítés hatékonyabban használja fel az adatattribúciókat az adatmetszéshez, különösen akkor, ha csak korlátozott mennyiségű adat áll rendelkezésre.

Az adatok értékelése és a modell viselkedésének a betanítási adatokhoz való hozzárendelése egyre fontosabb kutatási terület. Ennek egyik bevett módszere az adatok eltávolítása, amikor alacsony vagy magas értékű adatpéldányokat törölnek, majd értékelik a módosított adathalmazon betanított modell teljesítményét — írja az arXiv:2605.11312v1 számú tanulmány.
Sok jelenlegi tanulmány Shapley-alapú adatértékeket használ ehhez a feladathoz. Azonban az új kutatás rámutat, hogy ezek az adatértékek nem optimálisan alkalmasak az alacsony értékű adatok metszésére, ha már csak korlátozott mennyiségű adat maradt.
A probléma orvoslására vezették be a Constraint-Data-Value-Maximization (CDVM) megközelítést. Ez a módszer hatékonyan használja fel az adatattribúciókat az adatmetszéshez, különösen alacsony adatmennyiségű forgatókönyvekben. A metszést egy korlátozott optimalizálási feladatként kezeli, amely maximalizálja a teljes befolyást és bünteti a túlzott tesztenkénti hozzájárulásokat.
A CDVM robusztus teljesítményt nyújt, még akkor is, ha az adatoknak csak egy kis töredékét tartják meg — állítják a kutatók. Az OpenDataVal teljesítményteszten a CDVM erős teljesítményt és versenyképes futási időt mutatott be.
A módszer előnyomtatott formában jelent meg az arXiv preprint szerverén, a 2605.11312v1 azonosító alatt.