Frissítve: 15 perce·Ma: 49
Alkalmazások
AI által generált szöveg

A Google AI Overviews 10 százalékban téved, percenként százezreket hazudik

A pontatlanságok mértékét a The New York Times és egy Oumi nevű startup közös vizsgálata tárta fel, amely a SimpleQA értékelési rendszer segítségével mutatott rá az AI Overviews korlátaira.

A Google AI Overviews 10 százalékban téved, percenként százezreket hazudik
Fotó: Mockup Free / Unsplash
Forrás: Ars TechnicaSzerző: AI Forradalom szerk.
Megosztás

A Google Gemini-alapú AI Overviews funkciója a keresési eredmények tetején jelenik meg, ám pontosságával kapcsolatban komoly aggályok merültek fel. Egy friss elemzés szerint az AI Overviews az esetek 10 százalékában téves információt közöl — írja az Ars Technica.

A The New York Times vizsgálata egy Oumi nevű startup segítségével zajlott, amely a SimpleQA értékelést használta. Ez a 2024-ben az OpenAI által kiadott teszt több mint 4000 ellenőrizhető kérdést tartalmaz, amelyeket generatív AI modellek ténybeli pontosságának rangsorolására használnak.

Az Oumi tavaly kezdte meg a tesztet a Gemini 2.5 modellel, amely akkor 85 százalékos pontosságot mutatott. A Gemini 3 frissítés után újra lefuttatott tesztek már 91 százalékos helyes válaszadási arányt mértek. Ha ezt a hibaszázalékot kiterjesztjük az összes Google keresésre, az AI Overviews naponta több tízmillió téves választ generál.

A jelentés több példát is bemutat a hibákra. Amikor Bob Marley korábbi otthonának múzeummá válásának dátumát kérdezték, az AI Overviews három oldalt idézett, de kettő egyáltalán nem említette a dátumot. A harmadik, a Wikipédia, két ellentmondásos évet sorolt fel, és az AI Overviews magabiztosan a rossz dátumot választotta.

Ned Adriance, a Google szóvivője szerint a SimpleQA hibás információkat tartalmaz, és a Google modellértékelései inkább a SimpleQA Verified nevű, alaposabban ellenőrzött kérdéseket tartalmazó tesztet használják. Adriance hangsúlyozta, hogy a tanulmány „komoly hiányosságokkal rendelkezik”, és „nem tükrözi, amit az emberek valójában keresnek a Google-on”.

Az AI Overviews nem egyetlen monolitikus modell, a Google állítása szerint „a megfelelő modellt” használja minden lekérdezéshez. Bár a Gemini 3.1 Pro adná a legjobb válaszokat, lassú és drága, ezért az áttekintések gyakran gyorsabb Gemini Flash modelleket használnak.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom