A KARMA-MV adatbázis 2,682 YouTube zenés videót tartalmaz
A 2682 YouTube zenei videóból származó, nagyméretű, többválasztós kérdés-válasz adathalmaz a vizuális dinamika és a zenei struktúra közötti ok-okozati összefüggéseket vizsgálja.

Új teljesítménytesztet mutatott be egy kutatócsoport, amely a zenei videókban rejlő ok-okozati összefüggések megértését célozza mesterséges intelligencia modellek számára. A KARMA-MV névre keresztelt adathalmazt az arXiv-on tették közzé előnyomtatott formában.
A KARMA-MV 2682 YouTube zenei videóból származik, és kifejezetten arra tervezték, hogy tesztelje a modellek képességét az időbeli audio-vizuális jelek integrálására, valamint a vizuális elemek zenei struktúrára gyakorolt hatásának megértésére. Az adathalmaz érvelési, előrejelzési és ellenkező tényállásra vonatkozó kérdéseket is tartalmaz.
A zenei videók rejtett mintáinak feltárása
A hagyományos, manuális annotációt igénylő adathalmazokkal ellentétben a KARMA-MV a nagyméretű nyelvi modellek (LLM) érvelési képességeit használja a skálázható generáláshoz és validáláshoz. Ennek eredményeként 37 737 többválasztós kérdés (MCQ) jött létre, ami jelentős mennyiségű adatot biztosít a modellek betanításához és értékeléséhez.
Vizuális és zenei elemek találkozása
A kutatók egy kauzális tudásgráf (CKG) megközelítést is javasolnak, amely strukturáltan egészíti ki a látás-nyelvi modelleket (VLM) a keresztmodális függőségek lekérdezésével. A kísérletek szerint a CKG-alapú megközelítés következetes javulást eredményez a VLM-ek teljesítményében, különösen a kisebb modellek esetében, ami alátámasztja az explicit kauzális tudás értékét.
A KARMA-MV adathalmaz és a CKG megközelítés a YouTube videók elemzésében 2024. december 31-ig tervezett további kutatásokat és fejlesztéseket fog lehetővé tenni a Google és az Amazon együttműködésében.