Kutatás2026. ápr. 1.frissítve: 08:26

A FormalProofBench 33,5%-os pontosságot ért el a diplomamunka-szintű matematikai bizonyításokban

A Claude Opus 4.5 modell érte el a legjobb eredményt a FormalProofBench teszten

Fotó: Thomas T / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 1.

Megosztás

A Claude Opus 4.5 modell 33,5%-os pontosságot ért el a FormalProofBench teszten, amely a diplomamunka-szintű matematikai bizonyításokat értékelő teljesítményteszt. A FormalProofBench célja, hogy felmérje, képesek-e a mesterséges intelligencia modellek olyan formálisan verifikált matematikai bizonyításokat produkálni, amelyek megfelelnek a diplomamunka szintjének.

A FormalProofBench egy magánbenchmark, amely természetes nyelven megfogalmazott matematikai feladatokat párosít Lean~4 formális állításokkal. A modelleknek olyan Lean bizonyítást kell kibocsátaniuk, amelyet a Lean 4 ellenőrző elfogad. A FormalProofBench a matematika avanzsált alapképzési és mesterképzési szintjét célozza meg, a feladatokat egyetemi szintű tankönyvekből és szakdolgozatokból választják ki.

Az értékelés során a kutatók megállapították, hogy a legjobb teljesítményt nyújtó alapmodell 33,5%-os pontosságot ért el. A FormalProofBench a matematika számos területét felöleli, beleértve az analízist, az algebrát, a valószínűségszámítást és a logikát. A teljesítményteszt célja, hogy felmérje a mesterséges intelligencia modellek képességét a formálisan verifikált matematikai bizonyítások előállítására.

A FormalProofBench eredményei fontosak, mert rávilágítanak arra, hogy a mesterséges intelligencia modellek milyen mértékben képesek matematikai bizonyításokat produkálni. A teljesítményteszt eredményeiből az is kiderül, hogy a modellek teljesítménye gyorsan csökken, ha a feladatok szintje nő. Ez arra utal, hogy a jelenlegi mesterséges intelligencia modellek még mindig korlátozottak a matematikai bizonyítások terén.

Ami igazán érdekes, hogy a FormalProofBench eredményei azt mutatják, hogy a mesterséges intelligencia modellek képesek lehetnek a matematika bizonyos területein a formálisan verifikált bizonyítások előállítására. Ez fontos előrelépés lehet a matematika és a mesterséges intelligencia területén, mivel a formálisan verifikált bizonyítások alapvető fontosságúak a matematikai kutatásban és az alkalmazásokban.

A következő lépés az lesz, hogy a kutatók továbbfejlesztik a FormalProofBench teljesítménytesztet, és új modelleket értékelnek, hogy mégjobb eredményeket érjenek el a matematikai bizonyítások terén. Ez segíthet abban, hogy a mesterséges intelligencia modellek még pontosabban és hatékonyabban állítsanak elő matematikai bizonyításokat, ami fontos lehet a matematika és a tudomány területén.

tetszett a cikk? oszd meg →

Megosztás