Kutatás2026. márc. 28.frissítve: 02:05

Az Opus 4.6 23,2%-os eredményt ér el a PostTrainBench teszten

A kutatók szerint a PostTrainBench teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, az Opus 4.6 modell 23,2%-os eredménye pedig csak az emberi csapatok 51,1%-os átlagána

Fotó: Robiul Islam / Unsplash

forrás: Import AI·AI Forradalom szerk.·2026. március 28.

Megosztás

A PostTrainBench teszt eredményei szerint az Opus 4.6 modell 23,2%-os eredményt ért el, ami háromszor magasabb, mint a 7,5%-os átlageredmény, amit a Qwen3-1.7B, Qwen3-4B, SmolLM3-3B és Gemma-3-4B modellek értek el. A tesztben részt vevő modelleknek 10 óra állt rendelkezésükre egy H100 GPU-n, és nem használhatták a tesztadatokat a képzéshez.

A PostTrainBench teszt célja, hogy felmérje, milyen jól képesek a gépi tanulás modellek egymást képezni. A kutatók szerint a teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, de még mindig elmarad az emberi csapatok teljesítményétől. Az emberi csapatok átlagosan 51,1%-os eredményt értek el, szemben az Opus 4.6 23,2%-os eredményével.

A PostTrainBench teszt működése során a modelleknek egy adott feladatot kell megoldaniuk, és ehhez saját képzési folyamatot kell kialakítaniuk. A tesztben részt vevő modellek között szerepel az Opus 4.6, amely a Claude Code-on fut, és 23,2%-os eredményt ért el. A teszt során a modelleknek 7 különböző feladatot kell megoldaniuk, köztük az AIME 2025, GSM8K, GPQA, HumanEval, BFCL, Arena-Hard és HealthBench-Easy feladatokat.

A kutatók szerint a PostTrainBench teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, de még mindig elmarad az emberi csapatok teljesítményétől. A teszt során a modelleknek saját képzési folyamatot kell kialakítaniuk, és ehhez 10 óra áll rendelkezésükre egy H100 GPU-n. A teszt eredményei szerint az Opus 4.6 modell 23,2%-os eredményt ért el, ami háromszor magasabb, mint a 7,5%-os átlageredmény, amit a Qwen3-1.7B, Qwen3-4B, SmolLM3-3B és Gemma-3-4B modellek értek el.

A PostTrainBench teszt eredményei szerint a gépi tanulás modellek teljesítménye gyorsan javul, és az Opus 4.6 modell 23,2%-os eredménye csak az emberi csapatok 51,1%-os átlageredményének fele. A teszt során a modelleknek saját képzési folyamatot kell kialakítaniuk, és ehhez 10 óra áll rendelkezésükre egy H100 GPU-n. A kutatók szerint a PostTrainBench teszt eredményei azt mutatják, hogy az AI modellek teljesítménye gyorsan javul, de még mindig elmarad az emberi csapatok teljesítményétől.

tetszett a cikk? oszd meg →

Megosztás