Az Alibaba HopChainje 20 teljesítményteszten javítja a látásmodelleket
Kutatók az Alibaba-Qwen és a Tsinghua Egyetem közreműködésével a HopChain keretrendszerrel dolgoznak a látás-nyelv modellek fejlesztésén. A cél a komplex vizuális feladatoknál tapasztalt hibák

A látás-nyelv modellek (VLM-ek) következetesen gyengén teljesítenek az olyan feladatoknál, amelyek egy kép több, egymást követő érvelési lépését igénylik, ezzel alapvető gyengeséget tárva fel vizuális megértési képességeikben — írja a Nano Banana Pro. Egyetlen hiba az érvelési lánc elején, például tárgyak rossz megszámolása vagy téri viszonyok összekeverése, láncreakciót indít el, ami végül teljesen hibás eredményekhez vezet.
Az Alibaba-Qwen csapata és a Tsinghua Egyetem kutatói ezért fejlesztették ki a HopChain keretrendszert. Ez automatikusan generál többlépéses képi kérdéseket, ahol minden egyes lépés arra kényszeríti a modellt, hogy alaposan újra megvizsgálja a képet. Ezzel célzottan orvosolják a láncszerűen felhalmozódó hibákat.
A HopChain kérdések kétféle láncolatot építenek be. Egyrészt a feladatok váltakoznak az egyedi objektumfelismerés (például szöveg olvasása vagy színek azonosítása) és a több objektum összehasonlítása (például méretarányok vagy téri elrendezések) között. Másrészt minden kérdés objektumok közötti függőségi láncot követ, ahol a modell csak az általa már azonosítottakon keresztül találhatja meg a következő releváns objektumot.
Minden HopChain kérdés egy egyedi számmal végződik, ami automatikus válaszellenőrzést tesz lehetővé. Ez a módszer jelentősen javítja a modellek teljesítményét: a HopChain keretrendszer 24 benchmarkból 20-on hozott javulást, a Nano Banana Pro szerint.
A lánc ereje
Az adatok generálása négy szakaszban történik. Először az Alibaba Qwen3-VL -235B-A22B-Thinking nyelvi modellje azonosítja az objektumkategóriákat egy képen. Ezután a Meta SAM3 szegmentációs modellje lokalizálja ezen kategóriák egyedi példányait. A harmadik lépésben a nyelvi modell három-hat objektum kombinációja köré épít többszintű képi kérdéseket. A negyedik lépésben négy emberi annotátor oldja meg egymástól függetlenül az összes kérdést. Csak azok a kérdések kerülnek be a képzési adatok közé, amelyekre mind a négy annotátor egyetértő választ ad. A gyengébb modellek által könnyen kezelhető kérdéseket is kizárják. Ez a folyamat modellenként körülbelül 60 000–80 000 képzési példát eredményez.
Az úgynevezett ablációs vizsgálat kimutatta, hogy a teljes láncolat kulcsfontosságú. Amikor a kérdéseket csak az utolsó lépésükre csupaszítják, az átlagos pontszám öt reprezentatív teljesítményteszten 70,4-ről 64,3-ra esik. Ha csak a lánc második felét tartják meg, akkor 66,7-et ér el. A teljes kérdésláncok adják a legjobb eredményeket mind az öt teljesítményteszten.