A neurális hálózatok „lapos minimumai” csak illúziók – állítja egy új kutatás
A neurális hálózatok generalizációs képessége nem a veszteségfüggvény lapos régióival függ össze, hanem a „gyengeség” fogalmában rejlik. A neurális hálózatok általánosítási képessége más tényezőkön múlik, mint eddig gondolták.

A neurális hálózatok általában jobban általánosítanak, ha a veszteségfüggvény „lapos” régióiban találhatók — ezt a jelenséget használja ki például a Sharpness-Aware Minimisation (SAM) is. Egy új, előnyomtatott formában megjelent kutatás azonban megkérdőjelezi a lapos minimumok ok-okozati szerepét, és azt állítja, hogy a súlytér geometriája manipulálható anélkül, hogy a hálózat viselkedése megváltozna — írja az arXiv:2605.05209v1 tanulmány.
A kutatás szerint a függvényt megőrző reparaméterezés akár kétszázszorosára is növelheti bármely minimum Hessian-értékét anélkül, hogy egyetlen predikció is megváltozna. Ez azt jelenti, hogy ha a súlytér geometriája, vagyis a laposság, a semmiből is előállítható, akkor nem lehet a generalizáció valódi oka.
A „gyengeség” mint új magyarázat
A tanulmány bevezeti a „gyengeség” (weakness) fogalmát, mint a generalizáció tényleges mozgatórugóját. A gyengeség a tanult függvénnyel kompatibilis kiegészítések volumenét jelenti a tanuló beágyazott nyelvében. Ez a definíció reparaméterezés-invariáns, mivel a hálózat viselkedésén alapul, nem pedig azon, hogyan van paraméterezve.
A kutatás bizonyítja, hogy a gyengeség minimax-optimális cserélhető igények mellett, és a PAC-Bayes korlátok is azért működnek, mert korrelálnak ezzel a gyengeséggel. A MNIST adathalmazon végzett vizsgálatok is azt mutatják, hogy a nagy batch méretű betanítás generalizációs előnye a gyengeségnek köszönhető.
A szerző szerint a gyengeség elmélete mélyebb betekintést nyújthat a neurális hálózatok működésébe, és új irányokat mutathat a generalizáció javítására. A kutatás további lépései a gyengeség mérésére és optimalizálására fókuszálnak majd, különösen a komplexebb modellek és adathalmazok esetében, mint például a nagy nyelvi modellek.