22,7 FPS-re gyorsítja a diffúziós modelleket az Apple M3 Ultrán egy új optimalizálás

Valós idejű kamera kép-a-képbe (img2img) átalakítást valósítottak meg diffúziós modellekkel az Apple M3 Ultra chipen, 22,7 képkocka/másodperc (FPS) sebességgel — derül ki egy friss arXiv tanulmányból.

A kutatók tíz fázisban optimalizálták a rendszert, céljuk a volt, hogy a valós idejű képgenerálás ne csak NVIDIA GPU-kon, hanem Apple Silicon platformon is elérhető legyen. A kísérletek során számos technikát vizsgáltak, többek között a CoreML konverziót, a kvantálást, a Token Merginget, a Neural Engine kihasználását, a kompakt modelleket, a képkocka-interpolációt, a kNN-alapú szintézist, a pix2pix-turbót, az optikai áramlás alapú képkocka-kihagyást és a tudásdesztillációt.

Optimalizált modell és folyamat

A legjobb eredményt a SDXS-512 desztillációs-specializált modell CoreML konverziójának és egy háromszálas kamerafolyamatnak a kombinációjával érték el. Ez a megközelítés tette lehetővé a 512x512 felbontású képek valós idejű feldolgozását.

Az Apple M-sorozatú chipjeinek architektúrája, mint a M3 Ultra, egyre inkább alkalmas a LLM-ek és diffúziós modellek hatékony futtatására, amint azt az omlx és a MiniCPM-V projektek is mutatják. A mostani kutatás is megerősíti, hogy az Apple Silicon platformon is elérhető a nagy teljesítményű AI-inferencia, ami új lehetőségeket nyit meg a mobil és asztali eszközökön futó AI-alkalmazások számára.