Frissítve: 1 órája·Ma: 55
Alkalmazások
AI által generált szöveg

A Sourcegraph bemutatja a CodeScaleBench-et, a nagy kódalapokat és többadatelvényes szoftverfejlesztési feladatokat tesztelő eszközt

Stephanie Jarmak, a Sourcegraph munkatársa 370 szoftverfejlesztési feladatot tartalmazó adathalmazzal ruházta fel a CodeScaleBench-et

A Sourcegraph bemutatja a CodeScaleBench-et, a nagy kódalapokat és többadatelvényes szoftverfejlesztési feladatokat tesztelő eszközt
Fotó: Jiří Navrátil / Unsplash
Forrás: SourcegraphSzerző: AI Forradalom szerk.
Megosztás

A Sourcegraph bemutatja a CodeScaleBench-et, egy olyan eszközt, amely a nagy kódalapokat és több adatelvényes szoftverfejlesztési feladatokat teszteli. A CodeScaleBench-et Stephanie Jarmak, a Sourcegraph munkatársa hozta létre, aki 370 szoftverfejlesztési feladatot tartalmazó adathalmazzal ruházta fel az eszközt.

Az új teljesítményteszt célja, hogy felmérje a kódoló ügynökök képességét a nagy kódalapokon és a szoftverfejlesztési életciklusban. A meglévő teljesítménytesztek szerint Jarmak szerint nem megfelelőek, mivel szűkek vagy véletlenszerűek a feladatok tervezésében, kis vagy egyetlen repository-kat használnak, és nem teszik lehetővé az eredmények ellenőrzését. A CodeScaleBench ezzel szemben egy olyan eszköz, amely a szoftverfejlesztési életciklus teljes spektrumát lefedi, és lehetővé teszi a kódoló ügynökök teljesítményének értékelését.

A CodeScaleBench két részből áll: a CodeScaleBench-SDLC és a CodeScaleBench-Org. Az első 150 szoftverfejlesztési feladatot tartalmaz, amelyek a szoftverfejlesztési életciklus teljes spektrumát lefedik, míg a második 220 feladatot tartalmaz, amelyek a fejlesztési feladatokat igénylik, és az organizációs szintű kódalap-navigációt és -megértést igénylik. A teljesítményteszt az ügynökök teljesítményét a feladatok elvégzésében, a kontextus-visszakeresési metrikákban és a költségekben méri.

Az első eredmények azt mutatják, hogy a Sourcegraph MCP-vel felszerelt ügynök gyorsabb és olcsóbb volt, mint a lokális eszközökkel felszerelt ügynök. Az MCP-vel felszerelt ügynök jobb kontextus-visszakeresési metrikákat is produkált, különösen a nagy és/vagy több repository-s feladatok esetében. A CodeScaleBench egy élő teljesítményteszt, amely folyamatosan fejlődik, és az ügynökök teljesítményének értékelésére szolgál.

A CodeScaleBench hatásai az iparágra nézve jelentősek lehetnek, mivel lehetővé teszi a fejlesztők számára, hogy értékeljék az ügynökök teljesítményét a szoftverfejlesztési életciklusban. A teljesítményteszt az ügynökök fejlesztésére és a szoftverfejlesztési folyamatok optimalizálására is hatással lehet.

A jövőben a CodeScaleBench további fejlesztésre és finomhangolásra szorul, hogy még pontosabban értékelje az ügynökök teljesítményét. A Sourcegraph folyamatosan fogja frissíteni a teljesítménytesztet, és új feladatokat és funkciókat fog hozzáadni, hogy a szoftverfejlesztési iparág igényeinek megfeleljen.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom