Kutatás2026. máj. 23.frissítve: 06:10

8B-paraméteres modellek verik a GPT-5-öt az ötlet-előrejelzésben: 77,1% pontosság

A mesterséges intelligencia által generált hipotézisek szűrése eddig szűk keresztmetszetet jelentett, de egy új módszerrel ez megváltozhat.

Fotó: Jakob Braun / Unsplash

forrás: ArXiv ML·AI Forradalom szerk.·2026. május 23.

Megosztás

Nyelvi modellek taníthatók arra, hogy előre jelezzék a kutatási ötletek empirikus sikerét, még mielőtt bármilyen kísérletet elvégeznének — állítják kutatók egy arXiv-en előzetesen publikált tanulmányban.

A nyelvi modellek felgyorsítják a tudományos kutatást azáltal, hogy automatizálják a hipotézisek generálását és implementálását. Ezzel azonban új probléma merült fel: mesterséges intelligencia által generált ötletek százainak értékelése és szűrése, anélkül, hogy kimerítő kísérletezésre lenne szükség.

A hipotézisek szűrésének új korszaka

A kutatók azt vizsgálták, hogy az LLM-ek képesek-e előre jelezni a kutatási ötletek empirikus sikerét. Ehhez egy 11 488 ötletpárból álló adathalmazt hoztak létre, amely a PapersWithCode objektív eredményein alapul.

Míg a „polcról levett” 8B-paraméteres modellek kezdetben gyengén teljesítettek (30%-os pontosság), a SFT (Supervised finomhangolás) drámaian, 77,1%-ra növelte a teljesítményt, ezzel felülmúlva a GPT-5 61,1%-os eredményét — írja a tanulmány. Az értékelést érvelési feladatként értelmezve, a Reinforcement Learning with Verifiable Rewards (RLVR) módszerrel 71,35%-os pontosságot értek el, értelmezhető indoklásokkal.

A felfedezések új üteme

Ez a megközelítés lehetővé teszi, hogy a modellek rejtett érvelési útvonalakat fedezzenek fel, ami jelentősen hozzájárulhat a tudományos felfedezések felgyorsításához. A 8B-paraméteres modellek így hatékonyan szűrhetik a hipotéziseket, mielőtt azok költséges és időigényes kísérleti fázisba kerülnének.

A kutatás a 2024. évben folytatódik a SFT és a RLVR módszerek további fejlesztésével, a PapersWithCode adathalmazának bővítésével, 2025. január elsejéig tervezett közzététellel.

tetszett a cikk? oszd meg →

Megosztás