WildRoadBench: Drónfelvételekkel teszteli az AI-t az úthibák felismerésében
A WildRoadBench egy professzionálisan annotált drónkorpuszon keresztül vizsgálja a látás-nyelvi modellek (VLM) és a LLM-vezérelt autonóm ügynökök képességeit.

Új teljesítménytesztet mutatott be az arXiv-on egy kutatócsoport, amely a WildRoadBench nevet kapta. Ez a rendszer a látás-nyelvi modellek (VLM) közvetlen vizuális alapozását, valamint a LLM-vezérelt ügynökök autonóm kutatási és mérnöki képességeit vizsgálja egyetlen, professzionálisan annotált drónfelvétel-korpuszon — írja az arXiv-on megjelent tanulmány.
Ugyanazt a képkészletet és ugyanazt az AP_50 metrikát használják az osztályonkénti értékeléshez, de két különböző protokoll szerint. Az úgynevezett VLM Track azt méri, hogy egy rögzített VLM képes-e lokalizálni a doménspecifikus károkat egyetlen kép és egy rövid prompt alapján, egységes promptolási, dekódolási és elemzési folyamaton keresztül.
Az Agent Track ezzel szemben azt vizsgálja, hogy egy autonóm ügynök, amely csak írásos feladatleírást, egy kis feltáró szeletet és rögzített interakciós költségvetést kap, képes-e keresni a nyilvános weben, adaptálni előre betanított komponenseket, képzési és következtetési kódot írni, majd előrejelzéseket benyújtani egy rejtett teszthalmazon keresztül, skaláris visszajelzésű orákulum segítségével.
A kutatók számos zárt forráskódú, élvonalbeli modellt és nyílt forráskódú VLM-et, valamint több élvonalbeli LLM-vezérelt ügynököt is benchmarkoltak a WildRoadBench segítségével, hogy felmérjék azok teljesítményét a valós úthibák azonosításában.