Apple bemutatja új AI-kutatásait a CVPR 2026 konferencián
Az Apple tucatnyi új kutatási projektet mutat be a CVPR 2026 konferencián, Denverben, 2026. június 3-7. között. A konferencia a számítógépes látás és mintázatfelismerés legújabb eredményeit mutatja be.

Az Apple több mint tucatnyi új kutatási projektet mutat be a Computer Vision és Pattern Recognition Konferencia (CVPR) 2026 rendezvényén, amelyre június 3. és 7. között kerül sor a coloradói Denverben. A vállalat a konferencia szponzoraként is jelen lesz, összekötve a tudományos és iparági kutatóközösségeket a számítógépes látás és mintázatfelismerés területén.
A CVPR 2026 keretében az Apple több workshopon is képviselteti magát. Colin Lea a Generative AI for Sign Language (GenSign) workshopon, Oncel Tuzel pedig az Efficient Deep Learning for Computer Vision (ECV) és az Efficient and On-Device Generation (EDGE) workshopokon tart előadásokat. Afshin Dehghan a Video Large Language Models (VidLLMs) workshopon szólal fel, míg Hsin-Ping (Cindy) Huang és Maggie Xiao a Women in Computer Vision (WiCV) eseményen vesznek részt.
Kapcsolódó: Apple Silicon fejlesztések
A konferencián összesen 10 új kutatási projektet mutatnak be posztereken és szóbeli előadásokon. Ezek között szerepel a STARFlow-V, egy end-to-end videógeneráló modell, valamint a From Where Things Are to What They’re For, amely a multimodális LLM-ek térbeli-funkcionális intelligenciáját vizsgálja. A kutatások érintik a képkompressziót, a jelnyelv-annotációk és a 4D geometriai reprezentációk betanítását is.
Kapcsolódó: diffúziós modellek optimalizálása
Az Apple standjánál június 5. és 7. között lesz lehetőség személyesen megismerkedni a projektekkel. Pavan Kumar Anasosalu Vasu a VSAS-Bench-et, Byeongjoo Ahn és Jiasen Lu az AToken-t, Jiatao Gu a STARFlow-V-t, Rick Chang pedig a Velox-ot mutatja be. Di Feng a SO-Bench-et ismerteti.
Kapcsolódó: AI-alapú CCTV-elemzés
Az eseményen az Apple több publikációja is szerepel, köztük az AMUSE, egy audio-vizuális keretrendszer ügynöki többhangszórós megértéshez, valamint az AToken, egy egységes tokenizáló látáshoz. A kutatások között szerepel még az UniGen-1.5, a TrajTok, a DSO, a VSAS-Bench, a Pico-Banana-400K és a SO-Bench is, amelyek mind a számítógépes látás és a generatív modellek fejlődését hivatottak elősegíteni.
Kapcsolódó: videóobjektum-észlelési módszerek