Frissítve: 14 perce·Ma: 63
Kutatás
AI által generált szöveg

Az IBM VAKRA benchmarkja 8000+ API-val teszteli az AI-ügynököket

A VAKRA egy végrehajtható teljesítményteszt, amely a hagyományos, izolált képességeket vizsgáló tesztekkel ellentétben az API-k és dokumentumok közötti kompozíciós érvelést méri.

Az IBM VAKRA benchmarkja 8000+ API-val teszteli az AI-ügynököket
Fotó: Possessed Photography / Unsplash
Forrás: Hugging FaceSzerző: AI Forradalom szerk.
Megosztás

Új teljesítménytesztet mutatott be az IBM Research, amely a mesterséges intelligencia (AI) ügynökök érvelési és cselekvési képességeit értékeli vállalati környezetben — írja a Hugging Face.

A VAKRA teszt több mint 8000 helyben hosztolt API-val és 62 domainnel dolgozik, valós adatbázisokra támaszkodva. A feladatok 3-7 lépéses érvelési láncokat igényelnek, amelyek strukturált API-interakciót és strukturálatlan információ-lekérdezést kombinálnak természetes nyelvi eszközhasználati korlátok mellett.

A mesterséges intelligencia üveggyári akadálypályája

A VAKRA teljesítményteszt négy fő képességet vizsgál. A „API Chaining” 2077 tesztpéldányt tartalmaz 54 domainen, ahol az ügynököknek 1–12 eszközhívást kell láncolniuk a végső válasz eléréséhez. A „Tool Selection” 1597 példányt ölel fel 17 domainen, itt a megfelelő API-k kiválasztása a cél egy adott feladathoz.

Az érvelési képességek labirintusa

A „Multi-Hop Reasoning” 869 tesztpéldányt tartalmaz 38 domainen, és több lépéses logikai érvelést igényel, ahol az ügynököknek több információt kell kinyerniük és kombinálniuk. A legkomplexebb, „Multi-Hop, Multi-Source Reasoning and Policy Adherence” nevű képesség 644 példányt foglal magában 41 domainen.

Az IBM szerint a VAKRA adathalmaz és a hozzá tartozó leaderboard már elérhető a kutatók számára 2024. január elsejétől, a Hugging Face platformon keresztül.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom