A Claude Opus 4.5 hosszú gondolkodási lánccal 99%-os pontosságot ér el aritmetikai feladatokon
Minél hosszabb a modell kimenete, annál pontosabb a teljesítménye összetett feladatokon – a Claude Opus 4.5 thinking módban 99%-os pontosságot hozott aritmetikai teszteken az OpenRouter API-n.

A Claude Opus 4.5 modell 6 lépéses aritmetikai feladatokat old meg 240 soros outputtal, az OpenRouter API-n keresztül történő tesztek során 99%-os pontosságot ért el az aritmetikai feladatok megoldásában, amikor a "magas" szintű okoskodást engedélyezték.
A kutatók szerint a hosszabb kimenetek növelhetik az oldalfeladatok képességét, mivel a modellnek több ideje van a feladatok megoldására. A Claude Opus 4.5 modell képes megoldani nehezebb aritmetikai feladatokat latensen, amikor hosszabb trajektóriával rendelkezik.
Az OpenRouter API parameter beállításával a kutatók képesek voltak a modell okoskodását szabályozni, és a modell teljesítményét mérni különböző feladatokban. A modellverseny összehasonlítása során a Claude Opus 4.5 modell jelentős előnyben volt a többi modellhez képest, és a legjobb eredményeket érte el az aritmetikai feladatok megoldásában.
A kutatók megállapították, hogy a modell teljesítménye javul, ha a modellnek több ideje van a feladatok megoldására, és a hosszabb kimenetek növelhetik az oldalfeladatok képességét. A Claude Opus 4.5 modell 50%-os pontossági küszöbértéke ~5-ről ~6-ra nőtt, miután 240 soros outputot produkált.
A jövőben a kutatók további kísérleteket terveznek, hogy megértsék a modell teljesítményét és a hosszabb kimenetek hatását az oldalfeladatokra. Az eredmények alapján a Claude Opus 4.5 modell jelentős potenciállal rendelkezik az aritmetikai feladatok megoldásában, és a további fejlesztések segíthetnek a modell teljesítményének további javításában.