Frissítve: 1 órája·Ma: 15
Kutatás
AI által generált szöveg

Az Apple TC-JEPA rendszere szöveggel javítja a vizuális AI-modellek pontosságát

A Text-Conditional JEPA (TC-JEPA) a képaláírások felhasználásával pontosabbá teszi a maszkolt képrészletek előrejelzését, ami stabilabb betanítást eredményez.

Az Apple TC-JEPA rendszere szöveggel javítja a vizuális AI-modellek pontosságát
Fotó: rawkkim / Unsplash
Forrás: Apple MLSzerző: AI Forradalom szerk.
Megosztás

Az Apple kutatói új megközelítést mutattak be, amely a szöveges információk segítségével csökkenti a vizuális AI-modellek bizonytalanságát a maszkolt képrészletek előrejelzésekor — írja az Apple Machine Learning kutatása.

A TC-JEPA egy finomhangolt szöveges kondicionálót alkalmaz, amely ritka kereszt-figyelmet számol az input szöveges tokeneken. Ennek köszönhetően a patch-jellemzők a szöveg függvényében válnak előrejelezhetővé, így sokkal értelmesebbé válnak.

A szöveg és a kép találkozása

A Text-Conditional JEPA (TC-JEPA) nevű rendszer az Image-based Joint-Embedding Predictive Architecture (I-JEPA) alapjaira épül, de a képaláírásokat is felhasználja a predikciós pontosság növelésére. Ezáltal a modell által előrejelzett képrészletek szemantikailag sokkal gazdagabbá válnak, ami a downstream feladatok teljesítményét is javítja.

Vizuális megértés határainak kitolása

Az Apple szerint a TC-JEPA javítja a downstream feladatok teljesítményét és a betanítás stabilitását, emellett ígéretes skálázhatósági tulajdonságokkal rendelkezik. A kutatást az ICML konferencián mutatták be 2026 májusában, ahol a funkció-előrejelzésen alapuló új látás-nyelvi előbetanítási paradigmát is bemutatták.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom