ÉlőUtoljára: 33 perceMa: 1
Alkalmazásokfrissítve: 03:30

Élő nyomkövető mutatja be a vezető AI modellek teljesítményváltozásait

Az Arena AI egy új, élő nyomkövetővel vizualizálja a vezető mesterséges intelligencia modellek teljesítményét és változásait, ELO-pontszámok alapján.

Élő nyomkövető mutatja be a vezető AI modellek teljesítményváltozásait
Fotó: Fotó: Anthony McKissic / Unsplash
forrás: Hacker News·AI Forradalom szerk.·
Megosztás

Az AI laborok gyakran frissítik modelljeiket a megjelenés után, ami a felhasználók körében gyakran 'nerfelés', azaz teljesítményromlás érzetéhez vezet — írja a Hacker News. Az Arena AI most egy olyan diagramot indított, amely minden zászlóshajó modell nyilvános ELO-életciklusát egyetlen idővonalon ábrázolja, így az ilyen trendek azonnal láthatóvá válnak.

A rendszer naponta frissíti adatait a Hugging Face-en található hivatalos Arena AI Leaderboard adatkészletből. Ez az adatkészlet több ezer vak, crowdsourcing alapú emberi szavazat eredményein alapul, amelyek a modellek közötti páros összehasonlításokból származnak.

A mesterséges intelligencia modellek teljesítményének tengerén

Minden labor pontosan egy görbét kap, amely az adott labor legmagasabbra értékelt, zászlóshajó-képes modelljét követi nyomon az idő múlásával. Ha egy labor egy középkategóriás modellt (például a Sonnetet) ad ki, miközben egy magasabb kategóriás (például az Opus) még mindig felette rangsorol, a görbe az Opusnál marad. Az új kiadások címkézett jelölőpontokként jelennek meg, gyakran pontszámugrással.

Fontos megjegyezni, hogy az ELO-pontszámok relatívak, így egy változatlan modell pontszáma csökkenhet, ha erősebb modellek lépnek be a rangsorba, vagy ha a versenytársak javulnak. Továbbá, az API-végpontokon keresztül tesztelt modellek teljesítménye eltérhet a fogyasztói chat-felületeken (például a gemini.com vagy a chatgpt.com) tapasztalhatótól, mivel ezek a felületek rendszerpromptokat, biztonsági szűrőket és felhasználói felületi burkolókat adnak hozzá, és terhelés alatt csendben kvantált verziókra válthatnak.

A modell-teljesítmény változásainak kriptája

Az Arena AI szerint a nyomkövető a 'egynak legkonzisztensebb, hosszú távú jelzése' a modell-teljesítmény változásairól. A marginlab.ai például egy Claude Code nyomkövetőt is kínál, amely kifejezetten a Claude modellre fókuszál. A Hugging Face-en található adatkészlet 2024. március 15-én frissült.

tetszett a cikk? oszd meg →
Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom