AI Index 2026: a top modellek már emberi szintet érnek el tudományban és matematikában

A jelentés rávilágít, hogy az AI-fejlesztés üteme továbbra is elképesztő, annak ellenére, hogy sokan a fejlődés lassulására számítottak — írja a MIT Technology Review AI.

Az AI-modellek teljesítménye folyamatosan javul, egyes mérőszámok szerint már elérik vagy meghaladják a PhD-szintű tudományos, matematikai és nyelvi megértést igénylő feladatokban az emberi szakértőkét. A SWE-bench Verified szoftverfejlesztési teljesítményteszten a legjobb eredmények 2024-ben 60% körül mozogtak, 2025-re viszont közel 100%-ra ugrottak. Sőt, 2025-ben egy AI rendszer önállóan készített időjárás-előrejelzést.

Verseny és energiaigény

A geopolitikai tétekkel terhelt versenyben az Egyesült Államok és Kína szinte fej-fej mellett halad az AI modell teljesítményében az Arena rangsora szerint. Míg 2023 elején az OpenAI ChatGPT-je vezetett, 2024-ben a Google és az Anthropic modelljei szűkítették a különbséget. 2025 februárjában a kínai DeepSeek R1 modellje rövid időre felzárkózott a ChatGPT mellé, 2026 márciusában pedig az Anthropic vezet, szorosan követi a xAI, a Google és az OpenAI. A kínai modellek, mint a DeepSeek és az Alibaba, már csak szerényen maradnak el a vezetőktől. Az USA-nak több mint 5427 adatközpontja van, ami tízszerese bármely más országénak, míg Kína az AI kutatási publikációkban, szabadalmakban és robotikában vezet.

Az AI adatközpontok energiaigénye globálisan már eléri a 29,6 gigawattot, ami elegendő lenne New York állam teljes csúcsfogyasztásának fedezésére. Az OpenAI GPT-4o modelljének éves vízfogyasztása önmagában meghaladhatja 1,2 millió ember ivóvízszükségletét. Eközben a chip-ellátási lánc rendkívül sérülékeny: a világ AI adatközpontjainak nagy része az USA-ban található, de szinte minden vezető AI chipet egyetlen tajvani vállalat, a TSMC gyárt.

Munkaerőpiaci hatások és tesztelési kihívások

Az AI a mainstream megjelenése után három éven belül a világ lakosságának több mint felét érinti, gyorsabban terjed, mint a személyi számítógép vagy az internet. A szervezetek 88%-a már használja az AI-t, és az egyetemisták négyötöde is alkalmazza. A Stanford közgazdászainak 2025-ös tanulmánya szerint a 22-25 éves szoftverfejlesztők foglalkoztatottsága közel 20%-kal esett 2022 óta, amiben az AI-nak is szerepe lehet. A McKinsey & Company 2025-ös felmérése szerint a szervezetek egyharmada arra számít, hogy az AI a következő évben csökkenti a munkaerő létszámát, különösen a szolgáltatási és ellátási lánc műveletekben, valamint a szoftverfejlesztésben. Az AI 14%-kal növeli a termelékenységet az ügyfélszolgálatban és 26%-kal a szoftverfejlesztésben, de az ítélőképességet igénylő feladatoknál nem tapasztalható ilyen mértékű javulás.

A Stanford jelentése szerint az AI fejlődését mérő teljesítménytesztek nem tudják tartani a lépést a modellek gyors fejlődésével. Sok teszt rosszul van felépítve, például egy népszerű matematikai teljesítményteszt 42%-os hibaszázalékkal működik. Más teszteket könnyen kijátszhatnak a modellek, ha a betanítás során hozzáférnek a tesztadatokhoz. Mivel az AI-t ritkán használják pontosan úgy, ahogy tesztelik, a benchmarkokon elért erős teljesítmény nem mindig tükrözi a valós alkalmazásokban nyújtott teljesítményt. Az AI ügynökök és robotok komplex, interaktív technológiáihoz pedig alig léteznek még teljesítménytesztek. A vállalatok egyre kevesebb információt osztanak meg modelljeik betanításáról, ami megnehezíti a független kutatók munkáját.