Genetikus programozással gyorsítja a ViT-modelleket az új rendszer
A módszer a betanított súlyokból közvetlenül generálja a hardverbarát skalárfüggvényeket, így nincs szükség a modellek újratanítására.

Új, rendkívül hatékony, hardverbarát rendszert fejlesztettek ki a Vision Transformer (ViT) modellek adaptálására, amely genetikus programozást (GP) használ rétegspecifikus skalárfüggvények előállítására — írja az ArXiv-en megjelent tanulmány.
A ViT-modellek a legmodernebb teljesítményt nyújtják a komplex látásfeladatokban, ám a rétegnormalizálás okozta számítási komplexitás és globális redukciós szűk keresztmetszet miatt nehéz őket élvonalbeli eszközökön telepíteni. Korábbi módszerek megpróbálták ezt kikerülni a normalizációs rétegek hardverbarát skalár-approximációkkal való helyettesítésével, de ezek a homogén cserék nem illeszkedtek optimálisan minden réteg viselkedéséhez, és drága modell-újratanítást igényeltek.
A genetikus programozás áttörése
A most bemutatott megközelítés a genetikus programozást alkalmazza heterogén, rétegspecifikus skalárfüggvények kifejlesztésére, közvetlenül a már betanított súlyokból. Ezt egy új, betanítás utáni újraigazítási stratégiával párosítva teljesen szükségtelenné teszi a modellek nulláról történő újratanítását. Az így kifejlesztett kifejezések pontosan közelítik a célzott normalizációs viselkedést, a variancia 91,6%-át rögzítve (R²).
A ComRAM rendszer lehetőségei
A kutatók szerint a ComRAM névre keresztelt rendszer jelentősen csökkentheti a ViT-modellek élvonalbeli eszközökön való futtatásának memóriaigényét és számítási költségeit. A ComRAM rendszer 2024-ben várható, hogy integrálódjon a Vision Transformer modellekbe, és ezzel tovább növelje a modell teljesítményét.