Kutatás2026. máj. 7.frissítve: 22:30

Az Apple TC-JEPA rendszere szöveggel javítja a vizuális AI-modellek pontosságát

A Text-Conditional JEPA (TC-JEPA) a képaláírások felhasználásával pontosabbá teszi a maszkolt képrészletek előrejelzését, ami stabilabb betanítást eredményez.

Fotó: rawkkim / Unsplash

forrás: Apple ML·AI Forradalom szerk.·2026. május 7.

Megosztás

Az Apple kutatói új megközelítést mutattak be, amely a szöveges információk segítségével csökkenti a vizuális AI-modellek bizonytalanságát a maszkolt képrészletek előrejelzésekor — írja az Apple Machine Learning kutatása.

A TC-JEPA egy finomhangolt szöveges kondicionálót alkalmaz, amely ritka kereszt-figyelmet számol az input szöveges tokeneken. Ennek köszönhetően a patch-jellemzők a szöveg függvényében válnak előrejelezhetővé, így sokkal értelmesebbé válnak.

A szöveg és a kép találkozása

A Text-Conditional JEPA (TC-JEPA) nevű rendszer az Image-based Joint-Embedding Predictive Architecture (I-JEPA) alapjaira épül, de a képaláírásokat is felhasználja a predikciós pontosság növelésére. Ezáltal a modell által előrejelzett képrészletek szemantikailag sokkal gazdagabbá válnak, ami a downstream feladatok teljesítményét is javítja.

Vizuális megértés határainak kitolása

Az Apple szerint a TC-JEPA javítja a downstream feladatok teljesítményét és a betanítás stabilitását, emellett ígéretes skálázhatósági tulajdonságokkal rendelkezik. A kutatást az ICML konferencián mutatták be 2026 májusában, ahol a funkció-előrejelzésen alapuló új látás-nyelvi előbetanítási paradigmát is bemutatták.

tetszett a cikk? oszd meg →

Megosztás