Kutatás2026. máj. 12.frissítve: 08:30

A KARMA-MV adatbázis 2,682 YouTube zenés videót tartalmaz

A 2682 YouTube zenei videóból származó, nagyméretű, többválasztós kérdés-válasz adathalmaz a vizuális dinamika és a zenei struktúra közötti ok-okozati összefüggéseket vizsgálja.

Fotó: Brandon Hoogenboom / Unsplash

forrás: ArXiv CV·AI Forradalom szerk.·2026. május 12.

Megosztás

Új teljesítménytesztet mutatott be egy kutatócsoport, amely a zenei videókban rejlő ok-okozati összefüggések megértését célozza mesterséges intelligencia modellek számára. A KARMA-MV névre keresztelt adathalmazt az arXiv-on tették közzé előnyomtatott formában.

A KARMA-MV 2682 YouTube zenei videóból származik, és kifejezetten arra tervezték, hogy tesztelje a modellek képességét az időbeli audio-vizuális jelek integrálására, valamint a vizuális elemek zenei struktúrára gyakorolt hatásának megértésére. Az adathalmaz érvelési, előrejelzési és ellenkező tényállásra vonatkozó kérdéseket is tartalmaz.

A zenei videók rejtett mintáinak feltárása

A hagyományos, manuális annotációt igénylő adathalmazokkal ellentétben a KARMA-MV a nagyméretű nyelvi modellek (LLM) érvelési képességeit használja a skálázható generáláshoz és validáláshoz. Ennek eredményeként 37 737 többválasztós kérdés (MCQ) jött létre, ami jelentős mennyiségű adatot biztosít a modellek betanításához és értékeléséhez.

Vizuális és zenei elemek találkozása

A kutatók egy kauzális tudásgráf (CKG) megközelítést is javasolnak, amely strukturáltan egészíti ki a látás-nyelvi modelleket (VLM) a keresztmodális függőségek lekérdezésével. A kísérletek szerint a CKG-alapú megközelítés következetes javulást eredményez a VLM-ek teljesítményében, különösen a kisebb modellek esetében, ami alátámasztja az explicit kauzális tudás értékét.

A KARMA-MV adathalmaz és a CKG megközelítés a YouTube videók elemzésében 2024. december 31-ig tervezett további kutatásokat és fejlesztéseket fog lehetővé tenni a Google és az Amazon együttműködésében.

tetszett a cikk? oszd meg →

Megosztás