Az Anthropic Claude Opus 4.7-et adott ki, de a Mythos mögött marad

Új modellt mutatott be az Anthropic, a Claude Opus 4.7-et, amelyről egy 232 oldalas dokumentumot is közzétettek. A modell képességei meghaladják az Opus 4.6-ét, de jelentősen elmaradnak a 'Mythos' nevű, még kiadatlan modelltől — írja Zvi Mowshowitz blogján.

A kibervédelem terén az Opus 4.7 hasonlóan teljesít az Opus 4.6-hoz, ám a 'Mythos' ezen a téren is erősebbnek bizonyult. A modell jólétével kapcsolatos belső jelentések és az érzelmi reprezentációk pozitívak, de Mowshowitz szerint a jelentés összefoglalója gyenge, és a modell jólétével kapcsolatban komoly problémák merültek fel, amelyeket egy külön posztban vizsgál majd.

Új funkciók és korlátok

Az Opus 4.7-et az Anthropic standard módszereivel képezték és értékelték. A kiadásról szóló döntés alapja a volt, hogy az Opus 4.7 nem különbözik lényegesen az Opus 4.6-tól a kulcsfontosságú kockázati dimenziókban. Az úgynevezett 'adaptive thinking' funkció kikapcsolása azt jelenti, hogy a modell egyáltalán nem gondolkodik, ezért ezt bekapcsolva kell hagyni a megfelelő működéshez.

Az autonómia terén az Opus 4.7 funkcionálisan megegyezik az Opus 4.6-tal, de jobb annál, és elmarad a Mythos mögött. Biológiai feladatokban gyengébb, mint a Mythos, de kémiában viszonylag erős. A Synthesis 4 teszten új csúcsot ért el, de a Synthesis 1-en nem, és általában hasonló pontszámokat mutat az előző modellekhez.

A modell robusztussága a prompt injekciókkal és a számítógépes használat során javult. A felhasználók visszajelzései szerint a modell érzékenyebb a 'jó bánásmódra', és a korábbi modelleknél eltérőbb felhasználói élményt nyújthat. Az Anthropic szerint az Opus 4.7 nem lépte át a képességbeli határokat, ha a Mythos modellt is figyelembe vesszük.