Egyetlen AI sem végez banki munkát ügyfélre készen — 500 bankár szerint
A vezető AI modellek, mint a GPT-5.4 és a Claude Opus 4.6, nem képesek önállóan, ügyfélnek küldhető minőségű munkát produkálni a befektetési banki feladatokban — derül ki egy új benchmarkból.

A Handshake AI és a McGill Egyetem kutatócsoportja közzétette a BankerToolBench nevű nyílt forráskódú teljesítménytesztet, amely a vezető AI-ügynököket teszteli a befektetési bankárok napi munkafolyamatain — írja Jonathan Kemper a LinkedInen. A tesztek eredménye egyértelmű: a 500 befektetési bankár egyetlen AI kimenetet sem talált azonnal felhasználhatónak ügyfélküldésre.
A bankárok szerint az AI kimenetek 41 százaléka jelentős átdolgozást igényel, és 27 százaléka teljesen használhatatlan. Mindössze 13 százalék volt az, amely enyhe szerkesztéssel átment volna a rostán. A tesztelésben a Goldman Sachs, JPMorgan, Evercore, Morgan Stanley és Lazard cégektől érkező bankárok vettek részt, közülük 172-en maguk tervezték a feladatokat, összesen több mint 5700 munkaórát fektetve a projektbe.
Az AI-kimenetek törékenysége
A BankerToolBench nem csupán szöveges válaszokat értékel, hanem valós, junior bankárok által készített anyagokat, mint Excel pénzügyi modelleket működő képletekkel, PowerPoint prezentációkat, PDF jelentéseket és Word feljegyzéseket. Az AI-ügynököknek adatgyűjtést kellett végezniük adatbankokból, piaci adatplatformokból, mint a FactSet és Capital IQ, valamint a SEC beadványait is elemezniük kellett. Egyetlen feladat akár 539 hívást is generálhatott a nyelvi modell felé, 97 százalékban eszközhasználathoz vagy kódvégrehajtáshoz kapcsolódóan.
Az értékelést egy Gandalf nevű AI-ellenőrző rendszer végezte, amelyet a kutatók építettek a Gemini 3 Flash Preview alapján. Ez 88,2 százalékban egyezett az emberi értékelőkkel, ami valamivel jobb, mint két emberi értékelő közötti 84,6 százalékos egyezés.
Az AI-modellek teljesítménye
A GPT-5.4 a kritériumok közel felénél elbukott, és kimeneteinek mindössze 16 százalékát fogadták el a bankárok hasznos kiindulópontként. Ha három következetes futtatást is megköveteltek, ez az arány 13 százalékra esett. A Gemini 2.5 Pro egyetlen feladatot sem tudott teljesíteni. A Claude Opus 4.6 kimenetei első ránézésre csiszoltaknak tűnnek a kutatók szerint, de az Excel modellek alapvető hibát mutatnak: a kulcsszámok többsége fix értékként van bekódolva, nem képletekkel számolva, ami lehetetlenné teszi a szcenárióelemzést.
A GPT-5.4 modell 58,1 pontot ért el a 100-ból, és a GPT-5.2-t 70 százalékban felülmúlta a feladatok összehasonlításában. A Claude Opus 4.6 és a Gemini 3.1 Pro szorosan követik, míg a Grok 4 és a Gemini 2.5 Pro messze lemaradva teljesítettek a BankerToolBench tesztjein. A bankárok a 2024. év elején kezdik el a BankerToolBench használatát a befektetési banki feladatok értékelésére.