ÉlőUtoljára: 34 perceMa: 0
Alkalmazásokfrissítve: 10:33

Így teszteli az AI-t a ZDNET: valós használat, befolyásmentes eredmények

A ZDNET a valós felhasználáson alapuló tesztelést alkalmazza. A gyártók nem befolyásolhatják a teszteredményeket.

Így teszteli az AI-t a ZDNET: valós használat, befolyásmentes eredmények
Fotó: Fotó: Aidan Tottori / Unsplash
forrás: ZDNet AI·AI Forradalom szerk.·
Megosztás

A ZDNET bemutatta, hogyan teszteli a mesterséges intelligencia termékeket és szolgáltatásokat, kiemelve a gyakorlati, valós felhasználáson alapuló megközelítést — írja a ZDNET.

A portál szerint a tesztelési filozófiájuk alapja a „hands-on” tapasztalat és a valós körülmények közötti próbák. Ez azt jelenti, hogy bár beszámolhatnak sajtóközleményekben szereplő teljesítményteszt-eredményekről, azokat nem veszik figyelembe a végleges értékelések során. A ZDNET elutasítja a gyártói befolyást, és nem engedélyez előzetes betekintést a publikálás előtt.

Standardizált tesztek és összehasonlítások

A ZDNET széles skálán vizsgálja az AI-termékeket, beleértve a nagyméretű nyelvi modelleket (LLM-ek), fejlesztői eszközöket, képgenerátorokat és AI-képes alkalmazásokat. A „legjobb” listák összeállításához standardizált teszteket és objektív összehasonlítási kritériumokat alkalmaznak. David Gewirtz, a ZDNET vezető szerkesztője szerint a folyamat három szakaszból áll: értékelési kritériumok kidolgozása, a termékek kiválasztása, majd a tesztről tesztre történő összehasonlítás.

Példaként említik a chatbotok, mint a ChatGPT, a Gemini és a Claude összehasonlítását, ahol részletes tesztelési módszertant dokumentálnak. A tesztek során a teljesítményt, az értéket, a hasznosságot, a pontosságot, a biztonságot és az adatvédelmet vizsgálják. A cél, hogy a termékek összehasonlítása objektív legyen, és a felhasználók megbízható alapot kapjanak a döntéseikhez.

Hosszú távú tapasztalatok

A ZDNET nem csak rövid távú teszteket végez, hanem hosszú távon is együtt él a termékekkel, projekteket valósít meg velük. Ez a megközelítés túlmutat a hagyományos értékeléseken, mivel a termékeket napokig, hetekig, sőt hónapokig tartó munkára fogják. Gewirtz szerint például az AI kódoló eszközöket nagyon nehéz objektíven összehasonlítani anélkül, hogy valami valódit építenének velük. A ZDNET szerint az AI-eszközök folyamatosan fejlődnek, ezért a „legjobb” listákat hat hónap és egy év között rendszeresen frissítik, hogy naprakészek maradjanak a gyorsan változó piacon.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom