Rovat · 30. oldal

Kutatás

AI research papers, arXiv publikációk, benchmarkok, tudományos áttörések

1159 cikk az archívumban

A KARMA-MV adatbázis 2,682 YouTube zenés videót tartalmaz

A 2682 YouTube zenei videóból származó, nagyméretű, többválasztós kérdés-válasz adathalmaz a vizuális dinamika és a zenei struktúra közötti ok-okozati összefüggéseket vizsgálja.

ArXiv CV·2 hónapjaAI

Kutatás

Új Auto-Rubric módszerrel javul a multimodális AI-modellek értékelése

A rendszer a vizuális nyelvi modellek (VLM) belső preferenciáit prompt-specifikus rubrikákká alakítja, így a holisztikus szándékot önállóan ellenőrizhető minőségi dimenziókká bontja.

ArXiv AI·2 hónapjaAI

Kutatás

Redundanciával csökkentenék a vizuális hallucinációkat a nyelvi modelleknél

A vizuális nyelvi modellek (VLM) gyakran szenvednek hallucinációktól és gyenge robusztusságtól homályos vagy sérült bemenetek esetén, ezt oldaná meg a redundancia növelése.

ArXiv CV·2 hónapjaAI

Kutatás

AI-karakterek egységes személyiségét hozza létre az UniCharacter — 10 képpel tanul

A modell mindössze 10 kép és a hozzá tartozó interakciós példák alapján képes elsajátítani a célkaraktert, és koherens személyiséget, stílust és vizuális identitást mutat mind a generált szövegben, mind a képben.

ArXiv ML·2 hónapjaAI

Kutatás

Cramér-távolság alapú DSAC-algoritmus javítja a robotok tanulását

Az új megközelítés az állapot-akció értékeket eloszlásos megerősítő tanulással reprezentálja, és a Cramér-távolságot minimalizálja az eloszlás betanításához.

ArXiv ML·2 hónapjaAI

Kutatás

Új BalCapRL rendszerrel javítja az Apple a MLLM képleírások minőségét

A BalCapRL egy kiegyensúlyozott megerősítő tanulás (RL) alapú megközelítés, amely a képleírások minőségét optimalizálja, elkerülve a korábbi módszerek kompromisszumait.

Apple ML·2 hónapjaAI

Kutatás

James Shore: az AI kódgenerálás csak arányos karbantartáscsökkentéssel éri meg

A szakértő amellett érvel, hogy az AI-ügynökök által generált kódmennyiség növekedése önmagában nem jelent megtakarítást, sőt, hosszú távon növelheti a kiadásokat.

Simon Willison·2 hónapjaAI

Kutatás

TwELL: új CUDA-kernel gyorsítja az LLM-ek betanítását 21,9%-kal, inferenciáját 20,5%-kal

A TwELL nevű megoldás a feedforward rétegek számításait teszi olcsóbbá a strukturálatlan ritkaság kihasználásával, anélkül, hogy a modell architektúráját megváltoztatná.

MarkTechPost·2 hónapjaAI

Kutatás

iPSD: Önállóan tisztítja az EEG-jeleket az új mélytanulási módszer

A rendszer a bemeneti EEG-szegmenst független, zajos részekre bontja, amelyek azonos alapjelet tartalmaznak, ezzel lehetővé téve az önszupervíziós betanítást.

ArXiv ML·2 hónapjaAI

Kutatás

Feleannyi memóriával futnak a nyelvi modellek az új Toeplitz MLP Mixerrel

A Toeplitz MLP Mixer (TMM) felváltja a transzformerek figyelem-mechanizmusát, így a betanítás során O(dn log n) idő- és O(dn) térkomplexitással dolgozik.

ArXiv ML·2 hónapjaAI

Kutatás

Folyamatos minőségi pontszámokkal értékeli a képfúziót az új FuScore MLLM

Az infravörös-látható képfúzió (IVIF) célja a hőinformáció és a térbeli részletek egyesítése egyetlen képpé, ám a jelenlegi értékelési módszerek korlátozottak.

ArXiv CV·2 hónapjaAI

Kutatás

Hétféle betegzajjal teszteli a klinikai diagnózist a MedExAgent LLM

Az új LLM-ügynök a jelenlegi egyszerűsített modellekkel szemben a klinikai diagnózis komplexitását kezeli, interaktívabb és valósághűbb megközelítéssel.

ArXiv NLP·2 hónapjaAI

Kutatás

MultiSoc-4D: A bengáli közösségi média adatbázis leplezi le az LLM-ek hibáját

A 58 ezer bejegyzést tartalmazó adatbázis négy dimenzió mentén — kategória, hangulat, gyűlöletbeszéd és szarkazmus — annotálja a tartalmakat.

ArXiv NLP·2 hónapjaAI

Kutatás

Bitstream diffúzióval zárja az autoregresszív rést a nyelvmodellezésben az új megközelítés

A diffúziós nyelvmodellek (DLM) eddig elmaradtak az autoregresszív társaiktól a mintaminőség és a diverzitás terén, de az új megközelítés ezt a hiányosságot igyekszik felszámolni.

ArXiv NLP·2 hónapjaAI

Kutatás

Hosszabb gondolkodás, nagyobb torzítás: a DeepSeek-R1 is pozíció-elfogult a válaszokban

A DeepSeek-R1 és más, gondolkodásra hangolt modellek esetében a válaszok pozíció-elfogultsága egyenesen arányos a gondolkodási folyamat hosszával — derül ki egy új kutatásból.

ArXiv AI·2 hónapjaAI

Kutatás

Új dekódolási módszerrel csökken a VLM-ek hallucinációja

A módszer a vizuális jellemzők alulsúlyozására épülő figyelem-egyensúlyhiányt korrigálja a nyelvi modellekben, jelentősen javítva a válaszok pontosságát.

ArXiv ML·2 hónapjaAI

Kutatás

Rejtett koalíciókat azonosít a többügynökös AI-ban az új spektrális diagnosztika

A módszer a belső neurális reprezentációkból épít páronkénti kölcsönös információs gráfot, majd spektrális partícionálással azonosítja a legfontosabb koalíciós határokat.

ArXiv AI·2 hónapjaAI

Kutatás

Könnyű hibrid modell oldja meg a tádzsik-perzsa lexikai egyeztetést 96,4%-os pontossággal

A kutatók által fejlesztett könnyű hibrid megoldás felülmúlja a nagyobb, többnyelvű transzformátorokat a specifikus lexikai egyeztetésben, miközben hatékonyan futtatható egyszerűbb hardveren is.

ArXiv NLP·2 hónapjaAI

Kutatás

A CASCADE rendszerrel tanulnak a nyelvi modellek telepítés után is

A CASCADE egy explicit, fejlődő epizodikus memóriával ruházza fel az LLM-alapú ágenseket, ami a természetes intelligencia adaptációs képességét utánozza.

ArXiv AI·2 hónapjaAI

Kutatás

HumanNet: egymillió órányi videóval skálázza a robotikai tanulást

Az adatbázis első- és harmadik személyű nézeteket is tartalmaz, finomhangolt tevékenységeket, ember-tárgy interakciókat és hosszú távú viselkedéseket rögzít.

ArXiv CV·2 hónapjaAI

Kutatás

Videógenerálást gyorsít a HSA: kevesebb lépéssel dolgozik a DiT-modellekkel

A Heterogeneous Step Allocation (HSA) módszer a spatiotemporális tokenek sebességdinamikája alapján osztja el a zajtalanítási lépéseket, így optimalizálva a számítási költségeket.

ArXiv CV·2 hónapjaAI