A laptopon futó Qwen 3.6 felülmúlta a Claude Opus 4.7-et kreatív képalkotásban
Egy szokatlan teljesítményteszt teszten az Alibaba Qwen3.6-35B-A3B modellje, amely egy MacBook Pro M5-ön futott, jobb minőségű SVG illusztrációkat produkált, mint az Anthropic zárt forráskódú Claude Opus 4.7-e.

A Qwen3.6-35B-A3B, az Alibaba nyílt forráskódú modellje felülmúlta az Anthropic Claude Opus 4.7-et egy kreatív képalkotási feladatban — írja Simon Willison a blogján.
Willison a „bicikliző pelikán” teljesítménytesztet használta, amely eredetileg viccnek indult, de eddig megbízhatóan korrelált a modellek általános hasznosságával. A Qwen 3.6 egy kvantált, 20.9 GB-os verziója, az Unsloth által optimalizált Qwen3.6-35B-A3B-UD-Q4_K_S.gguf futott egy MacBook Pro M5-ön a LM Studio és a llm-lmstudio plugin segítségével.
A művészi vívódás
A teszt során a Qwen 3.6 sokkal jobb minőségű SVG illusztrációt készített egy bicikliző pelikánról, mint az Opus 4.7, amely elrontotta a kerékpár vázát. Willison egy második tesztet is lefuttatott, ahol a „gondolkodási szintet” maximalizálta az Opus 4.7-nél, de az eredmény nem javult jelentősen.
A technológiai áttörés
A szerző további gyanút fogott, ezért egy „egykerékpározó flamingó” feladattal is megpróbálkozott. Ebben a feladatban is a Qwen3.6-35B-A3B teljesített jobban, részben egy kiváló SVG komment miatt is. Willison nem hiszi, hogy a laborok kifejezetten erre a „hülye benchmarkra” edzenék a modelljeiket, de a mostani eredmény gyanút ébresztett benne.
Ez az eredmény megkérdőjelezi a teljesítménytesztek és a modellek általános hasznossága közötti korábbi összefüggést. A Qwen3.6-35B-A3B modell 2024. március 10-én került bemutatásra, és azóta folyamatosan fejlesztik.