Az Apple TC-JEPA rendszere szöveggel javítja a vizuális AI-modellek pontosságát
A Text-Conditional JEPA (TC-JEPA) a képaláírások felhasználásával pontosabbá teszi a maszkolt képrészletek előrejelzését, ami stabilabb betanítást eredményez.

Az Apple kutatói új megközelítést mutattak be, amely a szöveges információk segítségével csökkenti a vizuális AI-modellek bizonytalanságát a maszkolt képrészletek előrejelzésekor — írja az Apple Machine Learning kutatása.
A TC-JEPA egy finomhangolt szöveges kondicionálót alkalmaz, amely ritka kereszt-figyelmet számol az input szöveges tokeneken. Ennek köszönhetően a patch-jellemzők a szöveg függvényében válnak előrejelezhetővé, így sokkal értelmesebbé válnak.
A szöveg és a kép találkozása
A Text-Conditional JEPA (TC-JEPA) nevű rendszer az Image-based Joint-Embedding Predictive Architecture (I-JEPA) alapjaira épül, de a képaláírásokat is felhasználja a predikciós pontosság növelésére. Ezáltal a modell által előrejelzett képrészletek szemantikailag sokkal gazdagabbá válnak, ami a downstream feladatok teljesítményét is javítja.
Vizuális megértés határainak kitolása
Az Apple szerint a TC-JEPA javítja a downstream feladatok teljesítményét és a betanítás stabilitását, emellett ígéretes skálázhatósági tulajdonságokkal rendelkezik. A kutatást az ICML konferencián mutatták be 2026 májusában, ahol a funkció-előrejelzésen alapuló új látás-nyelvi előbetanítási paradigmát is bemutatták.