ÉlőUtoljára: 6 perceMa: 16

Rovat · 33. oldal

Kutatás

AI research papers, arXiv publikációk, benchmarkok, tudományos áttörések

810 cikk az archívumban

A Coefficient Giving 100 millió dollárt különít el bio biztonsági projektekre
Kutatás

A Coefficient Giving 100 millió dollárt különít el bio biztonsági projektekre

A Coefficient Giving nonprofit szervezet több mint 100 millió dollárt irányít biotechnológiai biztonsági projektekre, reagálva az AI által felerősített biológiai fenyegetések kockázatára – a pályázati ablak május 11-én zár.

LessWrong AI·AI
A SimMOF ellenőrzi a folyamatokat, és a természetes nyelvi lekérdezések alapján automatizálja a MOF szimulációkat
Kutatás

A SimMOF ellenőrzi a folyamatokat, és a természetes nyelvi lekérdezések alapján automatizálja a MOF szimulációkat

A SimMOF fejlesztői az ArXiv-en osztották meg a projekt részleteit, ami egy nagy nyelvi modell alapú, többszörös ügynök keretrendszer.

ArXiv AI·AI
A GISTBench bemutatja: 8 nyílt súlyú LLM felmérése felhasználói viselkedés alapján
Kutatás

A GISTBench bemutatja: 8 nyílt súlyú LLM felmérése felhasználói viselkedés alapján

A GISTBench a felhasználói viselkedés értékeléséhez két új mértékegységet vezet be: az Interest Groundedness (IG) és az Interest Specificity (IS)

ArXiv AI·AI
Az LLM-ek 6,5%-ban hallucinálnak, 13,2%-ban mulasztanak a válaszokban
Kutatás

Az LLM-ek 6,5%-ban hallucinálnak, 13,2%-ban mulasztanak a válaszokban

Öt vezető LLM tesztje szerint a modellek válaszainak 6,5%-ában hallucináció, 13,2%-ában mulasztás vagy kitérő válasz szerepelt – az UTCO-keretrendszerrel 2075 strukturált utasítást vizsgálva.

ArXiv NLP·AI
LLM-Alapú Ügynökök: A Minőség Értékelése Logaritmikusan, Az Új Felfedezések Pedig Hatványtörvény Szerint Növekednek
Kutatás

LLM-Alapú Ügynökök: A Minőség Értékelése Logaritmikusan, Az Új Felfedezések Pedig Hatványtörvény Szerint Növekednek

A kutatók 960 ülést végeztek két modellpárral 15 feladatban, és megállapították, hogy a személyalapú ügynök-bírák értékelései nem különböznek jelentősen az emberi bírákétól.

ArXiv AI·AI
A kutatók felfedezték, hogyan reaktiválhatók a poszt-tréningelt LLM-ek elrejtett biztonsági mechanizmusai
Kutatás

A kutatók felfedezték, hogyan reaktiválhatók a poszt-tréningelt LLM-ek elrejtett biztonsági mechanizmusai

Az ArXiv NLP szerint a kutatók a DeepSeek-R1 sorozatú nagy reasoner modelleket vizsgálták, amelyek erős reasoner képességeket mutatnak a poszt-tréning után.

ArXiv NLP·AI
Az új Connections játékban az AI-ügynököknek együttműködésre kell törekedniük
Kutatás

Az új Connections játékban az AI-ügynököknek együttműködésre kell törekedniük

A kutatók szerint a Connections játék jó teljesítményteszt lesz a nyelvi modellek alapú ügynökök szociális intelligenciájának mérésére

ArXiv AI·AI
Az OpenTools 6-22%-os teljesítménynövekedést ér el a downstream feladatokban
Kutatás

Az OpenTools 6-22%-os teljesítménynövekedést ér el a downstream feladatokban

A kutatók az OpenTools projektet egy nyilvános webdemón keresztül tesztelték, ahol a felhasználók meghatározott ügynököket és eszközöket futtathatnak és teszteseteket adhatnak hozzá.

ArXiv AI·AI
A hibrid determinisztikus-LLM megközelítés 99%-os pontosságot ér el az információkivonásban
Kutatás

A hibrid determinisztikus-LLM megközelítés 99%-os pontosságot ér el az információkivonásban

A kutatás során három 12-14B LLM modellt használtak, köztük a Gemma 3, Phi 4 és Qwen 2.5 modelleket, amelyeket helyi számítógépen futtattak GPU nélkül.

ArXiv NLP·AI
A Stanford egyetem ingyenes transzformátor kurzust indít holnap
Kutatás

A Stanford egyetem ingyenes transzformátor kurzust indít holnap

A kurzus az összes érdeklődő számára nyitott, korlátozás nélkül.

Reddit LocalLLaMA·AI
Az LLM-ek megbízhatóak a kvalitatív kutatásokban, de az értékelésük még kérdéses
Kutatás

Az LLM-ek megbízhatóak a kvalitatív kutatásokban, de az értékelésük még kérdéses

Az LLM-ek értékelésére egyebek között az AWS Bedrock LLM-jét használták a kutatók.

ArXiv NLP·AI
A ClauseCompose dekóder 95,7%-os pontosságot ér el ismeretlen szándékpárokon
Kutatás

A ClauseCompose dekóder 95,7%-os pontosságot ér el ismeretlen szándékpárokon

A ClauseCompose dekóder egy könnyen tanítható modell, amely csak egyes szándékokon való betanítást igényel.

ArXiv NLP·AI
Az AI Safety három módja, hogy elvonja a figyelmet
Kutatás

Az AI Safety három módja, hogy elvonja a figyelmet

A szerző szerint a Prosaic Capture veszélye, hogy az AI safety szakemberek figyelme a termékbiztonsági munkára összpontosul, és elvonja a figyelmet a spekulatívabb kérdésekről.

LessWrong AI·AI
A Midjourney képgenerátora szép képeket készít, de nem követi az utasításokat
Kutatás

A Midjourney képgenerátora szép képeket készít, de nem követi az utasításokat

A Midjourney képgenerátorának pontos utasításokat követő képességének hiányára a Tech Xplore oldalán megjelent tanulmány hívja fel a figyelmet

Midjourney·AI
A Holocaust oral history elemzésében 107,305 megnyilatkozásra támaszkodnak
Kutatás

A Holocaust oral history elemzésében 107,305 megnyilatkozásra támaszkodnak

A kutatás az arXiv NLP-n jelent meg, és a T5-alapú érzelem-osztályozót használja az egyetértési stratumok közötti érzelmi eloszlások összehasonlítására.

ArXiv NLP·AI
Az OpenAI modelljei 4 hónap alatt duplázódnak, a szakértők 2028-ra várják az Automated Coder megjelenését
Kutatás

Az OpenAI modelljei 4 hónap alatt duplázódnak, a szakértők 2028-ra várják az Automated Coder megjelenését

A Claude Code 9 hónap alatt több mint 2,5 milliárd dolláros árbevételt ért el, az Anthropic pedig továbbra is 10-szeresére növeli az éves árbevételét.

LessWrong AI·AI
Federált ellenálló tanulás: az új módszer lehet a jövője a gépi tanulásnak
Kutatás

Federált ellenálló tanulás: az új módszer lehet a jövője a gépi tanulásnak

Több mint 2 tanulmány idézi a federált tanulás alkalmazását az egészségügyben

Reddit ML·AI
Nincs egyetlen szent könyv a gépi tanulásban
Kutatás

Nincs egyetlen szent könyv a gépi tanulásban

A Reddit-fórumon több mint 150 hozzászólás érkezett a gépi tanulás tankönyveiről szóló kérdésre.

Reddit ML·AI
Az OpenAI bejelenti a Comprehensive Superhuman Intelligence-t, ami 72 órán belül átalakítja a Föld felszínét
Kutatás

Az OpenAI bejelenti a Comprehensive Superhuman Intelligence-t, ami 72 órán belül átalakítja a Föld felszínét

A cég szerint a CSI 13 perc alatt áttervezte az egész inference stackjüket, és megoldott több, korábban megoldhatatlan anyagtudományi problémát.

LessWrong AI·AI
Az ArXiv új tanulmánya kategorikus keretet ad az AGI-architektúrák összehasonlítására
Kutatás

Az ArXiv új tanulmánya kategorikus keretet ad az AGI-architektúrák összehasonlítására

A tanulmány szerzői, Pablo de los Riscos, Fernando J. Corbacho és Michael A. szerint az új keretrendszer lehetővé teszi az RL, Universal AI és Active Inference architektúrák összehasonlítását.

ArXiv AI·AI
A ChartDiff 8541 chartpárt tartalmaz, ami segíthet a több diagramos érvelésben
Kutatás

A ChartDiff 8541 chartpárt tartalmaz, ami segíthet a több diagramos érvelésben

Az ArXiv AI szerint a ChartDiff segíthet a jelenlegi látás-nyelv modellek fejlesztésében, amelyeknek a több diagramos érvelésben való teljesítménye továbbra is kihívást jelent.

ArXiv AI·AI

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom