Modellek & LLM2026. ápr. 9.frissítve: 13:15

A Falcon Perception 68%-os Macro-F1 pontszámmal múlja felül a SAM 3-at

A TII UAE által bejelentett Falcon Perception modell 68,0 Macro-F1 pontszámot ért el a SA-Co teljesítményteszten, és egyetlen Transzformer architektúrát használ képfoltok és szöveg feldolgozására.

Fotó: Terry Granger / Unsplash

forrás: Hugging Face·AI Forradalom szerk.·2026. április 9.

Megosztás

A TII UAE bejelentette a Falcon Perceptiont, amely természetes nyelvi utasítások alapján végez képelemzést, és a SA-Co teljesítményteszten 68.0 Macro-F1 pontszámot ért el — írja a Hugging Face.

A modell egyetlen Transzformer architektúrát használ, amely képfoltokat és szöveget dolgoz fel egyetlen szekvenciában, hibrid figyelmi maszk segítségével. Ez a megközelítés lehetővé teszi, hogy változó számú példányt generáljon egy kis, strukturált token interfész és könnyű kimeneti fejek segítségével. Ezzel 62.3-at ért el a SAM 3.

A fejlesztők bevezették a PBench nevű diagnosztikai teljesítménytesztet is, amely a teljesítményt képességek (attribútumok, OCR-vezérelt disambiguáció, térbeli korlátok, kapcsolatok) és sűrű, zsúfolt jelenetek alapján bontja le. A csapat egy 0.3B paraméteres Falcon OCR modellt is kiadott, amely 80.3 és 88.6 pontszámot ért el az olmOCR és OmniDocBench benchmarkokon, miközben a legmagasabb átviteli sebességgel rendelkezik a nyílt forráskódú OCR modellek között.

A modell magja a Chain-of-Perception interfész, amely az egyes példányokat három lépésre bontja: koordináta, méret és szegmentáció. Először az objektum középpontját, majd annak térbeli kiterjedését, végül pedig egy teljes felbontású bináris maszkot jósol.

A Falcon Perception képzése több tanáron alapuló desztillációval történik, ahol a DINOv3 és a SigLIP2 vision modellek kiegészítő jeleket adnak át. Ez az inicializálás 74.25%-os zero-shot pontosságot eredményezett az ImageNet-1k-n.

tetszett a cikk? oszd meg →

Megosztás