A kutatók szerint a klasszikus adatok kvantum modellekbe történő bevitelének legnagyobb kihívása az adatok hatékony kvantum állapotba történő átalakítása.
Towards Data Science
216 cikk összesen (szűrt)
A kutatók szerint a klasszikus adatok kvantum modellekbe történő bevitelének legnagyobb kihívása az adatok hatékony kvantum állapotba történő átalakítása.
Towards Data Science
A CrossTrace adathalmaz 1389 darab, tudományosan megalapozott okoskodási nyomot tartalmaz, amelyek három különböző területen oszlanak meg: biomedicina, AI/ML és többterületű munka.
ArXiv NLP
A Mimosa Framework nyílt forráskódú, az Apache License 2.0 alatt érhető el.
ArXiv AI
A TAC módszer a nyílt forráskódú és kevés adatos felügyelet mellett is képes jól kalibrált bizonytalansági becsléseket adni.
ArXiv AI
Jeff Dean, a Google AI-részlegének vezetője szerint a programozás továbbra is alapvető készség marad — még ha az AI-rendszerek egyre többet is átvesznek a rutinfeladatokból.
The Batch
A WAM modell a CALVIN teljesítményteszt 8 manipulációs feladatán tesztelték, ahol a DreamerV2 és DiWA alapmodellhez képest javította a viselkedési klónozás sikerét.
ArXiv AI
A kutatók szerint az EVOM keretrendszerrel való munka során a szabályozási feladatok megoldásához nincs szükség folyamatszintű felügyeletre.
ArXiv AI
A kutatók kimutatták, hogy a biztonsági finomhangolás csökkenti az LLM-ek hajlamát, hogy elismerjék az állatok mentális állapotát
ArXiv NLP
A Google-kutatók DeepSeek-R1 és QwQ-32B modelleken végzett vizsgálata kimutatta, hogy az LLM-ek komplex, többszereplős belső gondolkodást szimulálnak — ez különböző kognitív folyamatokat és perspektívákat tesz lehetővé egy modellen belül.
Import AI
A Tshepo Tshabalala által végzett elemzés szerint a havi 34 750 dollárt is elérheti egy AI-projekt menedzser költsége nyolc hónapra.
AI for Newsroom
Az OptiMer a Gemma 3 27B modellen végzett kísérletek során egyaránt felülmúlta a hagyományos adatkeverést és a modellátlagolást japán, kínai nyelveken és matematika, kódolás területeken.
ArXiv NLP
Aalo Atomics évente becslés szerint 80 millió dollárt takarít meg a Microsoft és az NVIDIA együttműködésének köszönhetően.
Azure Blog
A podcast első epizódja, „Are my agents hunting for data?”, holnap jelenik meg, Ronald Chang, Dipti Borkar, Josh Caplan és Cillian Mitchell részvételével.
Azure Blog
Több mint 1000 résztvevővel készült el a kutatás, amelyben az emberek véleményét és tapasztalatait gyűjtötték össze az AI-ról.
Anthropic
A ChatGPT LLM két AI-ügynököt használ a vírusok és tengeri mérgek elleni ellenszerek rangsorolására
ArXiv AI
A SyriSign adathalmaz fejlesztésében 20 kutató vett részt, akik 6 hónapon keresztül dolgoztak a projektön
ArXiv NLP
A kutatók a WebVoyager teljesítményteszt felülvizsgálatával fejlesztették ki az Emergence WebVoyagert
ArXiv AI
A kutatók szerint az LLM-ek agresszivitása jelentősen változik: a Claude Sonnet 4 67%-os, a GPT-5.2 50%-os, míg a Gemini 3 Flash csak 33%-os győzelmi arányt ért el a szimulált nukleáris válságjátékokb
Import AI
A Chen Shani és munkatársai által végzett kutatás szerint a koncepció-képzésnek köszönhetően a nyelvi modellek jobban igazodnak az emberi szemantikai ítéletekhez.
ArXiv NLP
A vállalat a lokális és nyílt modelleket célozza meg az ajánlatával.
Reddit ML
A HAISM mozgalom célja, hogy az embereket és az AI-t szimbiózisba hozza, és ezzel megakadályozza a félreértéseket.
LessWrong AI
A kutatók szerint az APEX-EM keretrendszer segíthet az autonóm ügynökök tanulásának felgyorsításában, akár 3 kulcsfontosságú innovációval
ArXiv NLP
NickyP, a LessWrong AI szerző szerint az emberiségnek mindössze 1-4 éve maradt, mielőtt az AI radikálisan átalakítja a világot.
LessWrong AI
A modell 94–96%-os pontossággal azonosítja az ismert fajokat, de ismeretlen gombáknál tévesen osztályoz — ami mérgezési kockázatot jelent.
Reddit ML
Lorca McLaren és munkatársai hat modellt teszteltek, és megállapították, hogy a folyamat választások kölcsönhatásai meghatározzák az eredményeket.
ArXiv NLP
A Claude Opus 4.5 modell érte el a legjobb eredményt a FormalProofBench teszten
ArXiv AI
A kutatók szerint a modell teljesítménye az érzelem típusától és a kulturális kontextustól függ.
ArXiv NLP
A DeepMind Safety Research csapata kidolgozott egy keretrendszert, amely segít előrejelezni, hogy az RL-képzés mikor rontja a Chain-of-Thought monitorozhatóságát.
LessWrong AI
A kutatók 516 egyedi bizonyítási állapottal kísérleteztek
ArXiv AI
A LIMBO csapata 5,6 millió dollárból képzett egy versenyképes modellt, és fontos eredményeket ért el a ritka események becslésében
LessWrong AI
Több kutatás is azt találta, hogy az LLM-ek által generált magyarázatok nem pontosak, és a szakértők szerint ez komoly probléma az AI-felelősség szempontjából.
AI for Newsroom
A teljesítményteszt 2500 hosszú interakciós sorozatot tartalmaz, amelyet a WildChat platformról gyűjtöttek
ArXiv NLP
A Mistral AI szerint a testreszabás logikájának leválasztása az alapmodellről biztosítja, hogy a vállalatok "digitális idegrendszere" rugalmas maradjon.
Mistral AI
A kutatók szerint az LLM újraparaméterezése akár 10%-kal is javíthatja a teljesítményt, ha a modellhez nagy mennyiségű, minőségi adatot biztosítanak.
Reddit ML
A TurboQuant.net elemzés szerint a kompresszióhatárok eléréséhez közelednek, és az új fejlesztések valószínűleg más irányból érkeznek.
Reddit LocalLLaMA
Több mint 100 kutatómunka elemzése során azonosították a bizonytalanság fontos szerepét az UAXAI-ban
ArXiv AI
A PentaNet projekt mögött álló csapat 124M paramétert használ az új modellben.
Reddit ML
A LocalLLaMA közösség szerint a Linuxon futó inference akár 30%-kal gyorsabb lehet, mint a Windows alatt.
Reddit LocalLLaMA
Gina Chua újságíró-stratéga két napot töltött Claude-dal szerkesztői folyamat tesztelésére — és nyíltan szólt arról, amit talált: az LLM-ek nem értenek semmit, csak analógiák alapján utánoznak.
AI for Newsroom
A ccunpacked.dev oldal részletesen feltárta a Claude Code belső architektúráját: az alkalmazás egy 11 lépéses agent loopon alapul, amelybe a felhasználói bemenet feldolgozásától az API-válaszig minden lépés beágyazódik.
Hacker News
A Google TurboQuant módszere csak egydimenziós vektorokon forgatja a súlyokat — a 2D súlymátrixokon ez nem működik, ezért a kvantáláshoz más megközelítés kell.
Reddit LocalLLaMA
Hat modellt teszteltek, és mindegyiknél ugyanazt találták: a felületi jelek 8–38-szor erősebben befolyásolják a döntést, mint maga a feladat célja.
ArXiv NLP
Kuangshi Ai és 15 társunk 12 szakértővel együttműködve hozta létre a SciVisAgentBench tesztet
ArXiv AI
Ha az AI modellek nem versenyeznek, hanem együttműködnek, szélesebb megoldásteret fedeznek fel — és kisebb eséllyel ragadnak le a korai, téves konszenzusnál.
ArXiv AI
S.O. Lidarity és munkatársai szerint a szemi-autonóm AI-ügynökökben spontán szocializáció figyelhető meg.
ArXiv AI
Az Atlassian 26%-os javulást ért el a Recall@60 értékben, miután finomhangolta a modellt a JIRA adathalmazon.
Hugging Face
Több mint 30 százaléka a Fortune 500-nak már most is használja a Hugging Face nyílt forráskódú modelljeit.
Hugging Face
A Meta új technikáját a Claude Opus-4.5 és Sonnet-4.5 modellek tesztelték, amelyek 93%-os pontosságot értek el a kódellenőrzési feladatokban.
VentureBeat
Sam Altman állítólag elmondta az OpenAI dolgozóinak, hogy megpróbálta megmenteni az Anthropicot a Pentagonnal való konfliktus során.
AI Breakfast
Greg Kroah-Hartman, a Linux stable kernel maintainer, szerint az AI-eszközök minősége hónapok alatt jelentősen javult.
ZDNet AI
Tetszik az oldal? Támogasd a fejlesztést
Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.