Frissítve: 15 perce·Ma: 50
Modellek & LLM
AI által generált szöveg

A Claude Opus 4.5 hosszú gondolkodási lánccal 99%-os pontosságot ér el aritmetikai feladatokon

Minél hosszabb a modell kimenete, annál pontosabb a teljesítménye összetett feladatokon – a Claude Opus 4.5 thinking módban 99%-os pontosságot hozott aritmetikai teszteken az OpenRouter API-n.

A Claude Opus 4.5 hosszú gondolkodási lánccal 99%-os pontosságot ér el aritmetikai feladatokon
Fotó: Harrison Broadbent / Unsplash
Forrás: LessWrong AISzerző: AI Forradalom szerk.
Megosztás

A Claude Opus 4.5 modell 6 lépéses aritmetikai feladatokat old meg 240 soros outputtal, az OpenRouter API-n keresztül történő tesztek során 99%-os pontosságot ért el az aritmetikai feladatok megoldásában, amikor a "magas" szintű okoskodást engedélyezték.

A kutatók szerint a hosszabb kimenetek növelhetik az oldalfeladatok képességét, mivel a modellnek több ideje van a feladatok megoldására. A Claude Opus 4.5 modell képes megoldani nehezebb aritmetikai feladatokat latensen, amikor hosszabb trajektóriával rendelkezik.

Az OpenRouter API parameter beállításával a kutatók képesek voltak a modell okoskodását szabályozni, és a modell teljesítményét mérni különböző feladatokban. A modellverseny összehasonlítása során a Claude Opus 4.5 modell jelentős előnyben volt a többi modellhez képest, és a legjobb eredményeket érte el az aritmetikai feladatok megoldásában.

A kutatók megállapították, hogy a modell teljesítménye javul, ha a modellnek több ideje van a feladatok megoldására, és a hosszabb kimenetek növelhetik az oldalfeladatok képességét. A Claude Opus 4.5 modell 50%-os pontossági küszöbértéke ~5-ről ~6-ra nőtt, miután 240 soros outputot produkált.

A jövőben a kutatók további kísérleteket terveznek, hogy megértsék a modell teljesítményét és a hosszabb kimenetek hatását az oldalfeladatokra. Az eredmények alapján a Claude Opus 4.5 modell jelentős potenciállal rendelkezik az aritmetikai feladatok megoldásában, és a további fejlesztések segíthetnek a modell teljesítményének további javításában.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom