Helyben futó AI-ügynököt adott ki az Oppo: a X-OmniClaw kamerát és hangot is használ
Az új rendszer a felhőalapú nyelvi modelleket csak magasabb szintű gondolkodáshoz hívja be, a feladatok nagy részét helyben, a készüléken végzi el.

Nyílt forráskódú AI-ügynököt, a X-OmniClaw-t tette elérhetővé az Oppo Multi-X csapata Androidra, amely a telefon kameráját, képernyőjét és hangját használva végez feladatokat alkalmazásokon keresztül — írja a The Decoder.
A rendszer közvetlenül a fizikai eszközön fut, nem pedig a telefon felhőalapú másolatán keresztül. Az Oppo AI Center technikai jelentése élesen elhatárolja ezt a megközelítést az olyan felhőalapú telefonplatformoktól, mint a RedFinger, az Alibaba Wuying és a Tencent Cloud Phone, amelyek virtualizált Android-példányokban futtatnak ügynököket adatközpontokban.
A helyi intelligencia szövete
A X-OmniClaw ezzel szemben a fizikai Android-eszközön működik. Az észlelés, vezérlés és alkalmazásinterakciók alapvető logikája mind a telefonon belül található. A felhőalapú nyelvi modell csak „üzemanyagként” szolgál a magasabb szintű gondolkodáshoz, az Oppo szerint.
A rendszer helyben dolgozza fel a galéria fotóit kereshető, szöveges memóriává, kiszűrve az érzékeny tartalmakat mentés előtt. A memória modul a galéria fotóit tétlen időben összegzi egy Markdown fájlba, és kiszűri az érzékeny tartalmat mentés előtt, az Oppo szerint. Ez a megközelítés kiemeli az adatvédelmi előnyöket, mivel a nyers képek soha nem hagyják el a telefont.
Intelligens alkalmazások hálózata
Az ügynök a felhasználói viselkedést klónozza újrahasználható készségekké, ahelyett, hogy minden műveletet a nulláról tervezne. Közvetlenül deeplinkeken keresztül ugrik az alkalmazásoldalakra, elkerülve a tap-útvonalak ismétlését. A X-OmniClaw képes például termékek árait összehasonlítani a kamerával rögzített képek alapján, házi feladatokat megoldani, vagy automatikusan fotóalbumokat létrehozni a felhasználó galériájából.
A projekt a nyílt forráskódú HermesApp kódbázisra épül, és a Google Gemma 4-es modelljéhez hasonlóan, amely szintén képes helyi ügynökként működni okostelefonon, a ByteDance UI-TARS vizuális GUI-ügynökének módszerét ötvözi strukturális XML-adatokkal a hibaráta csökkentése érdekében. A kód és az eszközök elérhetők a GitHubon, 2024. március 15-étől.