Frissítve: 9 perce·Ma: 28
Modellek & LLM
AI által generált szöveg

A laptopon futó Qwen 3.6 felülmúlta a Claude Opus 4.7-et kreatív képalkotásban

Egy szokatlan teljesítményteszt teszten az Alibaba Qwen3.6-35B-A3B modellje, amely egy MacBook Pro M5-ön futott, jobb minőségű SVG illusztrációkat produkált, mint az Anthropic zárt forráskódú Claude Opus 4.7-e.

A laptopon futó Qwen 3.6 felülmúlta a Claude Opus 4.7-et kreatív képalkotásban
Fotó: Kamil Switalski / Unsplash
Forrás: Simon WillisonSzerző: AI Forradalom szerk.
Megosztás

A Qwen3.6-35B-A3B, az Alibaba nyílt forráskódú modellje felülmúlta az Anthropic Claude Opus 4.7-et egy kreatív képalkotási feladatban — írja Simon Willison a blogján.

Willison a „bicikliző pelikán” teljesítménytesztet használta, amely eredetileg viccnek indult, de eddig megbízhatóan korrelált a modellek általános hasznosságával. A Qwen 3.6 egy kvantált, 20.9 GB-os verziója, az Unsloth által optimalizált Qwen3.6-35B-A3B-UD-Q4_K_S.gguf futott egy MacBook Pro M5-ön a LM Studio és a llm-lmstudio plugin segítségével.

A művészi vívódás

A teszt során a Qwen 3.6 sokkal jobb minőségű SVG illusztrációt készített egy bicikliző pelikánról, mint az Opus 4.7, amely elrontotta a kerékpár vázát. Willison egy második tesztet is lefuttatott, ahol a „gondolkodási szintet” maximalizálta az Opus 4.7-nél, de az eredmény nem javult jelentősen.

A technológiai áttörés

A szerző további gyanút fogott, ezért egy „egykerékpározó flamingó” feladattal is megpróbálkozott. Ebben a feladatban is a Qwen3.6-35B-A3B teljesített jobban, részben egy kiváló SVG komment miatt is. Willison nem hiszi, hogy a laborok kifejezetten erre a „hülye benchmarkra” edzenék a modelljeiket, de a mostani eredmény gyanút ébresztett benne.

Ez az eredmény megkérdőjelezi a teljesítménytesztek és a modellek általános hasznossága közötti korábbi összefüggést. A Qwen3.6-35B-A3B modell 2024. március 10-én került bemutatásra, és azóta folyamatosan fejlesztik.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom