Claim2Vec: új AI-modell a tényellenőrzés hatékonyságáért, 14 modellt is felülmúlt
A Claim2Vec az első olyan multilinguális embedding modell, amely a tényellenőrző állításokat vektorokká alakítja, ezzel jelentősen javítva a klaszterezési feladatok hatékonyságát.

Új mesterséges intelligencia modell, a Claim2Vec segítheti a tényellenőrző rendszereket a félrevezető állítások elleni küzdelemben, különösen a többnyelvű környezetben — írja az ArXiv NLP.
A modell a tényellenőrző állításokat vektorokként reprezentálja egy továbbfejlesztett szemantikai embedding térben. A fejlesztők egy multilinguális enkódert finomhangoltak kontrasztív tanulással, hasonló többnyelvű állításpárok felhasználásával.
A Claim2Vec teljesítményét három adathalmazon, 14 multilinguális embedding modellen és 7 klaszterezési algoritmuson tesztelték. Az eredmények szerint a Claim2Vec jelentősen javítja a klaszterezési teljesítményt, mind a klasztercímkék illesztését, mind az embedding tér geometriai struktúráját tekintve, különböző klaszterkonfigurációkban.
A multilinguális elemzés kimutatta, hogy a több nyelvet tartalmazó klaszterek profitálnak a finomhangolásból, ami a nyelvek közötti tudásátadásra utal. A Claim2Vec így hatékonyabbá teheti a tényellenőrzést a globális dezinformáció elleni harcban.