22,7 FPS-re gyorsítja a diffúziós modelleket az Apple M3 Ultrán egy új optimalizálás
A 60 magos GPU-val és 512 GB egységes memóriával szerelt M3 Ultra chipen a CoreML konverzió és a SDXS-512 modell kombinációja hozta meg az áttörést.

Valós idejű kamera kép-a-képbe (img2img) átalakítást valósítottak meg diffúziós modellekkel az Apple M3 Ultra chipen, 22,7 képkocka/másodperc (FPS) sebességgel — derül ki egy friss arXiv tanulmányból.
A kutatók tíz fázisban optimalizálták a rendszert, céljuk a volt, hogy a valós idejű képgenerálás ne csak NVIDIA GPU-kon, hanem Apple Silicon platformon is elérhető legyen. A kísérletek során számos technikát vizsgáltak, többek között a CoreML konverziót, a kvantálást, a Token Merginget, a Neural Engine kihasználását, a kompakt modelleket, a képkocka-interpolációt, a kNN-alapú szintézist, a pix2pix-turbót, az optikai áramlás alapú képkocka-kihagyást és a tudásdesztillációt.
Optimalizált modell és folyamat
A legjobb eredményt a SDXS-512 desztillációs-specializált modell CoreML konverziójának és egy háromszálas kamerafolyamatnak a kombinációjával érték el. Ez a megközelítés tette lehetővé a 512x512 felbontású képek valós idejű feldolgozását.
Az Apple M-sorozatú chipjeinek architektúrája, mint a M3 Ultra, egyre inkább alkalmas a LLM-ek és diffúziós modellek hatékony futtatására, amint azt az omlx és a MiniCPM-V projektek is mutatják. A mostani kutatás is megerősíti, hogy az Apple Silicon platformon is elérhető a nagy teljesítményű AI-inferencia, ami új lehetőségeket nyit meg a mobil és asztali eszközökön futó AI-alkalmazások számára.