Kutatás2026. ápr. 26.frissítve: 10:10

Egyetlen AI sem végez banki munkát ügyfélre készen — 500 bankár szerint

A vezető AI modellek, mint a GPT-5.4 és a Claude Opus 4.6, nem képesek önállóan, ügyfélnek küldhető minőségű munkát produkálni a befektetési banki feladatokban — derül ki egy új benchmarkból.

Fotó: Fotó: Anastassia Anufrieva / Unsplash

forrás: The Decoder·AI Forradalom szerk.·2026. április 26.

Megosztás

A Handshake AI és a McGill Egyetem kutatócsoportja közzétette a BankerToolBench nevű nyílt forráskódú teljesítménytesztet, amely a vezető AI-ügynököket teszteli a befektetési bankárok napi munkafolyamatain — írja Jonathan Kemper a LinkedInen. A tesztek eredménye egyértelmű: a 500 befektetési bankár egyetlen AI kimenetet sem talált azonnal felhasználhatónak ügyfélküldésre.

A bankárok szerint az AI kimenetek 41 százaléka jelentős átdolgozást igényel, és 27 százaléka teljesen használhatatlan. Mindössze 13 százalék volt az, amely enyhe szerkesztéssel átment volna a rostán. A tesztelésben a Goldman Sachs, JPMorgan, Evercore, Morgan Stanley és Lazard cégektől érkező bankárok vettek részt, közülük 172-en maguk tervezték a feladatokat, összesen több mint 5700 munkaórát fektetve a projektbe.

Az AI-kimenetek törékenysége

A BankerToolBench nem csupán szöveges válaszokat értékel, hanem valós, junior bankárok által készített anyagokat, mint Excel pénzügyi modelleket működő képletekkel, PowerPoint prezentációkat, PDF jelentéseket és Word feljegyzéseket. Az AI-ügynököknek adatgyűjtést kellett végezniük adatbankokból, piaci adatplatformokból, mint a FactSet és Capital IQ, valamint a SEC beadványait is elemezniük kellett. Egyetlen feladat akár 539 hívást is generálhatott a nyelvi modell felé, 97 százalékban eszközhasználathoz vagy kódvégrehajtáshoz kapcsolódóan.

Az értékelést egy Gandalf nevű AI-ellenőrző rendszer végezte, amelyet a kutatók építettek a Gemini 3 Flash Preview alapján. Ez 88,2 százalékban egyezett az emberi értékelőkkel, ami valamivel jobb, mint két emberi értékelő közötti 84,6 százalékos egyezés.

Az AI-modellek teljesítménye

A GPT-5.4 a kritériumok közel felénél elbukott, és kimeneteinek mindössze 16 százalékát fogadták el a bankárok hasznos kiindulópontként. Ha három következetes futtatást is megköveteltek, ez az arány 13 százalékra esett. A Gemini 2.5 Pro egyetlen feladatot sem tudott teljesíteni. A Claude Opus 4.6 kimenetei első ránézésre csiszoltaknak tűnnek a kutatók szerint, de az Excel modellek alapvető hibát mutatnak: a kulcsszámok többsége fix értékként van bekódolva, nem képletekkel számolva, ami lehetetlenné teszi a szcenárióelemzést.

A GPT-5.4 modell 58,1 pontot ért el a 100-ból, és a GPT-5.2-t 70 százalékban felülmúlta a feladatok összehasonlításában. A Claude Opus 4.6 és a Gemini 3.1 Pro szorosan követik, míg a Grok 4 és a Gemini 2.5 Pro messze lemaradva teljesítettek a BankerToolBench tesztjein. A bankárok a 2024. év elején kezdik el a BankerToolBench használatát a befektetési banki feladatok értékelésére.

tetszett a cikk? oszd meg →

Megosztás