Alkalmazások2026. ápr. 7.frissítve: 19:10

A Google AI Overviews 10 százalékban téved, percenként százezreket hazudik

A pontatlanságok mértékét a The New York Times és egy Oumi nevű startup közös vizsgálata tárta fel, amely a SimpleQA értékelési rendszer segítségével mutatott rá az AI Overviews korlátaira.

Fotó: john renzzel / Unsplash

forrás: Ars Technica·AI Forradalom szerk.·2026. április 7.

Megosztás

A Google Gemini-alapú AI Overviews funkciója a keresési eredmények tetején jelenik meg, ám pontosságával kapcsolatban komoly aggályok merültek fel. Egy friss elemzés szerint az AI Overviews az esetek 10 százalékában téves információt közöl — írja az Ars Technica.

A The New York Times vizsgálata egy Oumi nevű startup segítségével zajlott, amely a SimpleQA értékelést használta. Ez a 2024-ben az OpenAI által kiadott teszt több mint 4000 ellenőrizhető kérdést tartalmaz, amelyeket generatív AI modellek ténybeli pontosságának rangsorolására használnak.

Az Oumi tavaly kezdte meg a tesztet a Gemini 2.5 modellel, amely akkor 85 százalékos pontosságot mutatott. A Gemini 3 frissítés után újra lefuttatott tesztek már 91 százalékos helyes válaszadási arányt mértek. Ha ezt a hibaszázalékot kiterjesztjük az összes Google keresésre, az AI Overviews naponta több tízmillió téves választ generál.

A jelentés több példát is bemutat a hibákra. Amikor Bob Marley korábbi otthonának múzeummá válásának dátumát kérdezték, az AI Overviews három oldalt idézett, de kettő egyáltalán nem említette a dátumot. A harmadik, a Wikipédia, két ellentmondásos évet sorolt fel, és az AI Overviews magabiztosan a rossz dátumot választotta.

Ned Adriance, a Google szóvivője szerint a SimpleQA hibás információkat tartalmaz, és a Google modellértékelései inkább a SimpleQA Verified nevű, alaposabban ellenőrzött kérdéseket tartalmazó tesztet használják. Adriance hangsúlyozta, hogy a tanulmány „komoly hiányosságokkal rendelkezik”, és „nem tükrözi, amit az emberek valójában keresnek a Google-on”.

Az AI Overviews nem egyetlen monolitikus modell, a Google állítása szerint „a megfelelő modellt” használja minden lekérdezéshez. Bár a Gemini 3.1 Pro adná a legjobb válaszokat, lassú és drága, ezért az áttekintések gyakran gyorsabb Gemini Flash modelleket használnak.

tetszett a cikk? oszd meg →

Megosztás