Modellek & LLM2026. ápr. 27.frissítve: 11:30

Meta AI Sapiens2: 1 milliárd képen tanult modell javítja a pózbecslést

Az új modell a pózbecslést, szegmentálást és 3D geometriát is új, csúcsszínvonalra emeli, 0.4B-től 5B paraméterig terjedő méretekben.

Fotó: BoliviaInteligente / Unsplash

forrás: MarkTechPost·AI Forradalom szerk.·2026. április 27.

Megosztás

A Meta AI bemutatta a Sapiens2-t, a cég emberközpontú látásmodell-családjának második generációját. A modell 1 milliárd emberi képet tartalmazó adathalmazon tanult, és jelentős előrelépést jelent elődjéhez képest minden értékelt teljesítményteszten — írja a MarkTechPost.

A Sapiens2 natív 1K felbontáson működik, de hierarchikus változatai a 4K felbontást is támogatják. A fejlesztők célja a volt, hogy a modell egyszerre értse meg az emberi testek összetett struktúráját, finom felületi részleteit és a pózok, ruházatok, fényviszonyok, valamint etnikai különbségek hatalmas változatosságát valós képeken.

A Sapiens2 technológiájának szíve

Az előző Sapiens modell elsősorban a Masked Autoencoder (MAE) előtanításra támaszkodott, amely a bemeneti képfoltok nagy részének elfedésével és a hiányzó pixelek rekonstrukciójával tanítja a modellt. Ez a módszer kiválóan alkalmas a térbeli részletek és textúrák megtanulására, de nem tanulja meg természetesen a magas szintű szemantikát.

A Sapiens2 ezt a problémát úgy oldja meg, hogy a MAE-t globális kontrasztív tanulással (LCL) kombinálja. Ez a megközelítés lehetővé teszi a modell számára, hogy megőrizze az alacsony szintű részleteket, miközben szemantikailag is rendezi a reprezentációkat. A színaugmentációkat nem alkalmazták a MAE céljára használt globális nézetekre, ezzel megőrizve a fotorealisztikus feladatokhoz szükséges megjelenési jeleket.

Adatok és teljesítmény

A Meta AI kutatócsapata egy többlépcsős szűrőfolyamattal hozta létre a 1 milliárd képet tartalmazó Humans-1B adathalmazt. A kezdeti 4 milliárd képből származó adatokon bounding box detektálást, fej-póz becslést, esztétikai és realizmus pontozást, CLIP-alapú szűrést, valamint szövegfelismerést alkalmaztak. Az eredmény egy olyan válogatott korpusz, ahol minden kép legalább egy kiemelkedő személyt tartalmaz, minimum 384 pixeles rövid oldali felbontással.

A Sapiens2 négy modellméretben érhető el: 0.4B, 0.8B, 1B és 5B paraméterrel, mindegyik natív 1K felbontáson. A 5B-s modell a valaha jelentett legmagasabb FLOP-számú látástranszformátor, 15.722 TFLOP-pal, és a Meta AI tervei szerint 2024-ben lesz elérhető a kutatók számára.

tetszett a cikk? oszd meg →

Megosztás