Modellek & LLM2026. ápr. 3.frissítve: 21:05

A Claude Opus 4.5 hosszú gondolkodási lánccal 99%-os pontosságot ér el aritmetikai feladatokon

Minél hosszabb a modell kimenete, annál pontosabb a teljesítménye összetett feladatokon – a Claude Opus 4.5 thinking módban 99%-os pontosságot hozott aritmetikai teszteken az OpenRouter API-n.

Fotó: Fotó: Harrison Broadbent / Unsplash

forrás: LessWrong AI·AI Forradalom szerk.·2026. április 3.

Megosztás

A Claude Opus 4.5 modell 6 lépéses aritmetikai feladatokat old meg 240 soros outputtal, az OpenRouter API-n keresztül történő tesztek során 99%-os pontosságot ért el az aritmetikai feladatok megoldásában, amikor a "magas" szintű okoskodást engedélyezték.

A kutatók szerint a hosszabb kimenetek növelhetik az oldalfeladatok képességét, mivel a modellnek több ideje van a feladatok megoldására. A Claude Opus 4.5 modell képes megoldani nehezebb aritmetikai feladatokat latensen, amikor hosszabb trajektóriával rendelkezik.

Az OpenRouter API parameter beállításával a kutatók képesek voltak a modell okoskodását szabályozni, és a modell teljesítményét mérni különböző feladatokban. A modellverseny összehasonlítása során a Claude Opus 4.5 modell jelentős előnyben volt a többi modellhez képest, és a legjobb eredményeket érte el az aritmetikai feladatok megoldásában.

A kutatók megállapították, hogy a modell teljesítménye javul, ha a modellnek több ideje van a feladatok megoldására, és a hosszabb kimenetek növelhetik az oldalfeladatok képességét. A Claude Opus 4.5 modell 50%-os pontossági küszöbértéke ~5-ről ~6-ra nőtt, miután 240 soros outputot produkált.

A jövőben a kutatók további kísérleteket terveznek, hogy megértsék a modell teljesítményét és a hosszabb kimenetek hatását az oldalfeladatokra. Az eredmények alapján a Claude Opus 4.5 modell jelentős potenciállal rendelkezik az aritmetikai feladatok megoldásában, és a további fejlesztések segíthetnek a modell teljesítményének további javításában.

tetszett a cikk? oszd meg →

Megosztás