Élő nyomkövető mutatja be a vezető AI modellek teljesítményváltozásait
Az Arena AI egy új, élő nyomkövetővel vizualizálja a vezető mesterséges intelligencia modellek teljesítményét és változásait, ELO-pontszámok alapján.

Az AI laborok gyakran frissítik modelljeiket a megjelenés után, ami a felhasználók körében gyakran 'nerfelés', azaz teljesítményromlás érzetéhez vezet — írja a Hacker News. Az Arena AI most egy olyan diagramot indított, amely minden zászlóshajó modell nyilvános ELO-életciklusát egyetlen idővonalon ábrázolja, így az ilyen trendek azonnal láthatóvá válnak.
A rendszer naponta frissíti adatait a Hugging Face-en található hivatalos Arena AI Leaderboard adatkészletből. Ez az adatkészlet több ezer vak, crowdsourcing alapú emberi szavazat eredményein alapul, amelyek a modellek közötti páros összehasonlításokból származnak.
A mesterséges intelligencia modellek teljesítményének tengerén
Minden labor pontosan egy görbét kap, amely az adott labor legmagasabbra értékelt, zászlóshajó-képes modelljét követi nyomon az idő múlásával. Ha egy labor egy középkategóriás modellt (például a Sonnetet) ad ki, miközben egy magasabb kategóriás (például az Opus) még mindig felette rangsorol, a görbe az Opusnál marad. Az új kiadások címkézett jelölőpontokként jelennek meg, gyakran pontszámugrással.
Fontos megjegyezni, hogy az ELO-pontszámok relatívak, így egy változatlan modell pontszáma csökkenhet, ha erősebb modellek lépnek be a rangsorba, vagy ha a versenytársak javulnak. Továbbá, az API-végpontokon keresztül tesztelt modellek teljesítménye eltérhet a fogyasztói chat-felületeken (például a gemini.com vagy a chatgpt.com) tapasztalhatótól, mivel ezek a felületek rendszerpromptokat, biztonsági szűrőket és felhasználói felületi burkolókat adnak hozzá, és terhelés alatt csendben kvantált verziókra válthatnak.
A modell-teljesítmény változásainak kriptája
Az Arena AI szerint a nyomkövető a 'egynak legkonzisztensebb, hosszú távú jelzése' a modell-teljesítmény változásairól. A marginlab.ai például egy Claude Code nyomkövetőt is kínál, amely kifejezetten a Claude modellre fókuszál. A Hugging Face-en található adatkészlet 2024. március 15-én frissült.