Genetikus programozással gyorsítja a ViT-modelleket az új rendszer

Új, rendkívül hatékony, hardverbarát rendszert fejlesztettek ki a Vision Transformer (ViT) modellek adaptálására, amely genetikus programozást (GP) használ rétegspecifikus skalárfüggvények előállítására — írja az ArXiv-en megjelent tanulmány.

A ViT-modellek a legmodernebb teljesítményt nyújtják a komplex látásfeladatokban, ám a rétegnormalizálás okozta számítási komplexitás és globális redukciós szűk keresztmetszet miatt nehéz őket élvonalbeli eszközökön telepíteni. Korábbi módszerek megpróbálták ezt kikerülni a normalizációs rétegek hardverbarát skalár-approximációkkal való helyettesítésével, de ezek a homogén cserék nem illeszkedtek optimálisan minden réteg viselkedéséhez, és drága modell-újratanítást igényeltek.

A genetikus programozás áttörése

A most bemutatott megközelítés a genetikus programozást alkalmazza heterogén, rétegspecifikus skalárfüggvények kifejlesztésére, közvetlenül a már betanított súlyokból. Ezt egy új, betanítás utáni újraigazítási stratégiával párosítva teljesen szükségtelenné teszi a modellek nulláról történő újratanítását. Az így kifejlesztett kifejezések pontosan közelítik a célzott normalizációs viselkedést, a variancia 91,6%-át rögzítve (R²).

A ComRAM rendszer lehetőségei

A kutatók szerint a ComRAM névre keresztelt rendszer jelentősen csökkentheti a ViT-modellek élvonalbeli eszközökön való futtatásának memóriaigényét és számítási költségeit. A ComRAM rendszer 2024-ben várható, hogy integrálódjon a Vision Transformer modellekbe, és ezzel tovább növelje a modell teljesítményét.