Az Anthropic Opus 4.7-es modellje látásban fejlődött, de a hosszú kontextusban gyengült
Az Anthropic új Claude Opus 4.7-es modellje jelentős vizuális képességfejlesztéssel érkezett, de a hosszú kontextusú feladatokban és a biztonsági sebezhetőségek reprodukálásában visszaesést mutat.

Az Anthropic csütörtök reggel adta ki a Claude Opus 4.7-et, amely az előző verzióval azonos áron érhető el, 5 dollárért egymillió bemeneti és 25 dollárért egymillió kimeneti tokenenként — írja a The Neuron.
A modell látásmódja jelentősen javult: immár akár 3,75 megapixeles képeket is képes fogadni, ami nagyjából háromszorosa az eddigi korlátnak. A belső értékelések szerint a vizuális érvelésben is érezhető ugrás történt. Korábban a Claude látásmódja sok kritikát kapott, a felhasználók gyakran tapasztaltak „pixelhibás” kimeneteket, amikor karakterportrékat vagy képernyőképeket próbáltak javítani. Az új verzió azonban már képes önállóan felismerni a képarányokkal kapcsolatos problémákat, és valós megoldási javaslatokat tenni.
Több teljesítményteszt teszten azonban romlottak az eredmények: az ügynöki keresés, a kiberbiztonsági sebezhetőségek reprodukálása és a hosszú kontextusú 8-tűs teszt is visszaesett a 4.6-os verzióhoz képest. Nick Saave elmélete szerint a 4.7-es modell valójában a még kiadatlan Mythos Preview egy „desztillált” változata.
A Mythos-elmélet és a Claude Code
Saave érvelése szerint, ha a 4.7 egy desztillált verzió (egy kisebb modell, amelyet egy nagyobb imitálására képeztek ki), akkor a képességek többségének javulnia kellene. Azonban az ügynöki keresés, a kiberbiztonsági sebezhetőségek reprodukálása és az ügynöki terminálkódolás képességei éppen azok, amelyek romlottak, vagy csak marginálisan javultak. Ez a mintázat arra utalhat, hogy az Anthropic szándékosan korlátozza azokat a képességeket, amelyek az autonóm támadó biztonsági munkához a leghasznosabbak lennének.
A kontextus hűsége és az alügynöki munka
A Claude Code alapértelmezés szerint Haiku alügynököket használ háttér-olvasási és összefoglalási feladatokhoz. Ez a beállítás csendben kisebb modellt használhat, mint amire a felhasználók számítanak, ami befolyásolhatja a kontextus hűségét. Az új xhigh erőfeszítési szint a „high” és „max” között helyezkedik el a terminálban. A 4.7-es verzió 2024. március 14-én jelent meg, az Anthropic hivatalos weboldalán.