Frissítve: 1 órája·Ma: 57
Kutatás
AI által generált szöveg

Az Opus 4.6 23,2%-os eredményt ér el a PostTrainBench teszten

A kutatók szerint a PostTrainBench teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, az Opus 4.6 modell 23,2%-os eredménye pedig csak az emberi csapatok 51,1%-os átlagána

Az Opus 4.6 23,2%-os eredményt ér el a PostTrainBench teszten
Fotó: Robiul Islam / Unsplash
Forrás: Import AISzerző: AI Forradalom szerk.
Megosztás

A PostTrainBench teszt eredményei szerint az Opus 4.6 modell 23,2%-os eredményt ért el, ami háromszor magasabb, mint a 7,5%-os átlageredmény, amit a Qwen3-1.7B, Qwen3-4B, SmolLM3-3B és Gemma-3-4B modellek értek el. A tesztben részt vevő modelleknek 10 óra állt rendelkezésükre egy H100 GPU-n, és nem használhatták a tesztadatokat a képzéshez.

A PostTrainBench teszt célja, hogy felmérje, milyen jól képesek a gépi tanulás modellek egymást képezni. A kutatók szerint a teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, de még mindig elmarad az emberi csapatok teljesítményétől. Az emberi csapatok átlagosan 51,1%-os eredményt értek el, szemben az Opus 4.6 23,2%-os eredményével.

A PostTrainBench teszt működése során a modelleknek egy adott feladatot kell megoldaniuk, és ehhez saját képzési folyamatot kell kialakítaniuk. A tesztben részt vevő modellek között szerepel az Opus 4.6, amely a Claude Code-on fut, és 23,2%-os eredményt ért el. A teszt során a modelleknek 7 különböző feladatot kell megoldaniuk, köztük az AIME 2025, GSM8K, GPQA, HumanEval, BFCL, Arena-Hard és HealthBench-Easy feladatokat.

A kutatók szerint a PostTrainBench teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, de még mindig elmarad az emberi csapatok teljesítményétől. A teszt során a modelleknek saját képzési folyamatot kell kialakítaniuk, és ehhez 10 óra áll rendelkezésükre egy H100 GPU-n. A teszt eredményei szerint az Opus 4.6 modell 23,2%-os eredményt ért el, ami háromszor magasabb, mint a 7,5%-os átlageredmény, amit a Qwen3-1.7B, Qwen3-4B, SmolLM3-3B és Gemma-3-4B modellek értek el.

A PostTrainBench teszt eredményei szerint a gépi tanulás modellek teljesítménye gyorsan javul, és az Opus 4.6 modell 23,2%-os eredménye csak az emberi csapatok 51,1%-os átlageredményének fele. A teszt során a modelleknek saját képzési folyamatot kell kialakítaniuk, és ehhez 10 óra áll rendelkezésükre egy H100 GPU-n. A kutatók szerint a PostTrainBench teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, de még mindig elmarad az emberi csapatok teljesítményétől.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom