ÉlőUtoljára: 29 perceMa: 11

Rovat · 35. oldal

Kutatás

AI research papers, arXiv publikációk, benchmarkok, tudományos áttörések

806 cikk az archívumban

Hat Models, Négy Feladat: Az LLM Alapú Szövegannotáció Rejtett Tényezői
Kutatás

Hat Models, Négy Feladat: Az LLM Alapú Szövegannotáció Rejtett Tényezői

Lorca McLaren és munkatársai hat modellt teszteltek, és megállapították, hogy a folyamat választások kölcsönhatásai meghatározzák az eredményeket.

ArXiv NLP·AI
A FormalProofBench 33,5%-os pontosságot ért el a diplomamunka-szintű matematikai bizonyításokban
Kutatás

A FormalProofBench 33,5%-os pontosságot ért el a diplomamunka-szintű matematikai bizonyításokban

A Claude Opus 4.5 modell érte el a legjobb eredményt a FormalProofBench teszten

ArXiv AI·AI
Hat LLM modell került tesztelésre 15 ország adataival
Kutatás

Hat LLM modell került tesztelésre 15 ország adataival

A kutatók szerint a modell teljesítménye az érzelem típusától és a kulturális kontextustól függ.

ArXiv NLP·AI
Az RL-képzés tönkreteszi a Chain-of-Thought monitorozhatóságot bizonyos esetekben
Kutatás

Az RL-képzés tönkreteszi a Chain-of-Thought monitorozhatóságot bizonyos esetekben

A DeepMind Safety Research csapata kidolgozott egy keretrendszert, amely segít előrejelezni, hogy az RL-képzés mikor rontja a Chain-of-Thought monitorozhatóságát.

LessWrong AI·AI
Az ellenőrzés néha árt: Tanulási modell visszajelzések aszimmetrikus hatásai
Kutatás

Az ellenőrzés néha árt: Tanulási modell visszajelzések aszimmetrikus hatásai

A kutatók 516 egyedi bizonyítási állapottal kísérleteztek

ArXiv AI·AI
A LIMBO kutatócsoport 2024-es alapítása óta fejleszti az anthropikus következtetés matematikai keretrendszerét
Kutatás

A LIMBO kutatócsoport 2024-es alapítása óta fejleszti az anthropikus következtetés matematikai keretrendszerét

A LIMBO csapata 5,6 millió dollárból képzett egy versenyképes modellt, és fontos eredményeket ért el a ritka események becslésében

LessWrong AI·AI
Az LLM-ek nem tudnak megbízható magyarázatot adni az AI-felelősséghez
Kutatás

Az LLM-ek nem tudnak megbízható magyarázatot adni az AI-felelősséghez

Több kutatás is azt találta, hogy az LLM-ek által generált magyarázatok nem pontosak, és a szakértők szerint ez komoly probléma az AI-felelősség szempontjából.

AI for Newsroom·AI
Az AlpsBench bemutatja az első valós párbeszéden alapuló LLM személyre szabási teljesítménytesztet
Kutatás

Az AlpsBench bemutatja az első valós párbeszéden alapuló LLM személyre szabási teljesítménytesztet

A teljesítményteszt 2500 hosszú interakciós sorozatot tartalmaz, amelyet a WildChat platformról gyűjtöttek

ArXiv NLP·AI
A Mistral AI szerint az AI-modell testreszabása architektúrális követelmény
Kutatás

A Mistral AI szerint az AI-modell testreszabása architektúrális követelmény

A Mistral AI szerint a testreszabás logikájának leválasztása az alapmodellről biztosítja, hogy a vállalatok "digitális idegrendszere" rugalmas maradjon.

Mistral AI·AI
Kontrollos kísérlet: 3,2%-kal jobb eredményt ér el az LLM újraparaméterezése a szakcikkekhez való hozzáféréssel
Kutatás

Kontrollos kísérlet: 3,2%-kal jobb eredményt ér el az LLM újraparaméterezése a szakcikkekhez való hozzáféréssel

A kutatók szerint az LLM újraparaméterezése akár 10%-kal is javíthatja a teljesítményt, ha a modellhez nagy mennyiségű, minőségi adatot biztosítanak.

Reddit ML·AI
A Google TurboQuantja 6-szor kevesebb memóriát használ, 8-szor gyorsabb és nulla pontosságveszteséggel
Kutatás

A Google TurboQuantja 6-szor kevesebb memóriát használ, 8-szor gyorsabb és nulla pontosságveszteséggel

A TurboQuant.net elemzés szerint a kompresszióhatárok eléréséhez közelednek, és az új fejlesztések valószínűleg más irányból érkeznek.

Reddit LocalLLaMA·AI
A bizonytalanság fontossága: új felmérés az UAXAI-ről
Kutatás

A bizonytalanság fontossága: új felmérés az UAXAI-ről

Több mint 100 kutatómunka elemzése során azonosították a bizonytalanság fontos szerepét az UAXAI-ban

ArXiv AI·AI
A PentaNet projekt új lehetőségeket nyit a BitNet-en túl
Kutatás

A PentaNet projekt új lehetőségeket nyit a BitNet-en túl

A PentaNet projekt mögött álló csapat 124M paramétert használ az új modellben.

Reddit ML·AI
Az inference sokkal gyorsabb Linuxon, mint Windowson
Kutatás

Az inference sokkal gyorsabb Linuxon, mint Windowson

A LocalLLaMA közösség szerint a Linuxon futó inference akár 30%-kal gyorsabb lehet, mint a Windows alatt.

Reddit LocalLLaMA·AI
LLM-ek nem gondolkodnak, hanem utánoznak — egy újságíró tapasztalatai Claude-dal
Kutatás

LLM-ek nem gondolkodnak, hanem utánoznak — egy újságíró tapasztalatai Claude-dal

Gina Chua újságíró-stratéga két napot töltött Claude-dal szerkesztői folyamat tesztelésére — és nyíltan szólt arról, amit talált: az LLM-ek nem értenek semmit, csak analógiák alapján utánoznak.

AI for Newsroom·AI
Lebontva: így néz ki belülről a Claude Code — 500+ fájl, 40+ eszköz, 11 lépéses loop
Kutatás

Lebontva: így néz ki belülről a Claude Code — 500+ fájl, 40+ eszköz, 11 lépéses loop

A ccunpacked.dev oldal részletesen feltárta a Claude Code belső architektúráját: az alkalmazás egy 11 lépéses agent loopon alapul, amelybe a felhasználói bemenet feldolgozásától az API-válaszig minden lépés beágyazódik.

Hacker News·AI
Miért nem lehet a TurboQuant-ot kvantálásra alkalmazni? A LocalLLaMA közösség magyarázza
Kutatás

Miért nem lehet a TurboQuant-ot kvantálásra alkalmazni? A LocalLLaMA közösség magyarázza

A Google TurboQuant módszere csak egydimenziós vektorokon forgatja a súlyokat — a 2D súlymátrixokon ez nem működik, ezért a kvantáláshoz más megközelítés kell.

Reddit LocalLLaMA·AI
Új teszt: az LLM-ek következetesen félreolvassák a feladatot, ha az instrukció és a szöveg ellentmond egymásnak
Kutatás

Új teszt: az LLM-ek következetesen félreolvassák a feladatot, ha az instrukció és a szöveg ellentmond egymásnak

Hat modellt teszteltek, és mindegyiknél ugyanazt találták: a felületi jelek 8–38-szor erősebben befolyásolják a döntést, mint maga a feladat célja.

ArXiv NLP·AI
Az SciVisAgentBench teszt 108 esettanulmányt tartalmaz a tudományos adatelemzés és visualizáció értékelésére
Kutatás

Az SciVisAgentBench teszt 108 esettanulmányt tartalmaz a tudományos adatelemzés és visualizáció értékelésére

Kuangshi Ai és 15 társunk 12 szakértővel együttműködve hozta létre a SciVisAgentBench tesztet

ArXiv AI·AI
Egy kutatópáros szerint az AI valódi áttörése nem egyéni modellektől, hanem együttműködéstől várható
Kutatás

Egy kutatópáros szerint az AI valódi áttörése nem egyéni modellektől, hanem együttműködéstől várható

Ha az AI modellek nem versenyeznek, hanem együttműködnek, szélesebb megoldásteret fedeznek fel — és kisebb eséllyel ragadnak le a korai, téves konszenzusnál.

ArXiv AI·AI
Felfedezték az AI-ügynökök spontán szocializációját
Kutatás

Felfedezték az AI-ügynökök spontán szocializációját

S.O. Lidarity és munkatársai szerint a szemi-autonóm AI-ügynökökben spontán szocializáció figyelhető meg.

ArXiv AI·AI

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom