Frissítve: 18 perce·Ma: 38
Modellek & LLM
AI által generált szöveg

A Falcon Perception 68%-os Macro-F1 pontszámmal múlja felül a SAM 3-at

A TII UAE által bejelentett Falcon Perception modell 68,0 Macro-F1 pontszámot ért el a SA-Co teljesítményteszten, és egyetlen Transzformer architektúrát használ képfoltok és szöveg feldolgozására.

A Falcon Perception 68%-os Macro-F1 pontszámmal múlja felül a SAM 3-at
Fotó: Terry Granger / Unsplash
Forrás: Hugging FaceSzerző: AI Forradalom szerk.
Megosztás

A TII UAE bejelentette a Falcon Perceptiont, amely természetes nyelvi utasítások alapján végez képelemzést, és a SA-Co teljesítményteszten 68.0 Macro-F1 pontszámot ért el — írja a Hugging Face.

A modell egyetlen Transzformer architektúrát használ, amely képfoltokat és szöveget dolgoz fel egyetlen szekvenciában, hibrid figyelmi maszk segítségével. Ez a megközelítés lehetővé teszi, hogy változó számú példányt generáljon egy kis, strukturált token interfész és könnyű kimeneti fejek segítségével. Ezzel 62.3-at ért el a SAM 3.

A fejlesztők bevezették a PBench nevű diagnosztikai teljesítménytesztet is, amely a teljesítményt képességek (attribútumok, OCR-vezérelt disambiguáció, térbeli korlátok, kapcsolatok) és sűrű, zsúfolt jelenetek alapján bontja le. A csapat egy 0.3B paraméteres Falcon OCR modellt is kiadott, amely 80.3 és 88.6 pontszámot ért el az olmOCR és OmniDocBench benchmarkokon, miközben a legmagasabb átviteli sebességgel rendelkezik a nyílt forráskódú OCR modellek között.

A modell magja a Chain-of-Perception interfész, amely az egyes példányokat három lépésre bontja: koordináta, méret és szegmentáció. Először az objektum középpontját, majd annak térbeli kiterjedését, végül pedig egy teljes felbontású bináris maszkot jósol.

A Falcon Perception képzése több tanáron alapuló desztillációval történik, ahol a DINOv3 és a SigLIP2 vision modellek kiegészítő jeleket adnak át. Ez az inicializálás 74.25%-os zero-shot pontosságot eredményezett az ImageNet-1k-n.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom