NickyP, a LessWrong AI szerző szerint az emberiségnek mindössze 1-4 éve maradt, mielőtt az AI radikálisan átalakítja a világot.
LessWrong AI
294 cikk összesen (szűrt)
NickyP, a LessWrong AI szerző szerint az emberiségnek mindössze 1-4 éve maradt, mielőtt az AI radikálisan átalakítja a világot.
LessWrong AI
A modell 94–96%-os pontossággal azonosítja az ismert fajokat, de ismeretlen gombáknál tévesen osztályoz — ami mérgezési kockázatot jelent.
Reddit ML
Lorca McLaren és munkatársai hat modellt teszteltek, és megállapították, hogy a folyamat választások kölcsönhatásai meghatározzák az eredményeket.
ArXiv NLP
A Claude Opus 4.5 modell érte el a legjobb eredményt a FormalProofBench teszten
ArXiv AI
A kutatók szerint a modell teljesítménye az érzelem típusától és a kulturális kontextustól függ.
ArXiv NLP
A DeepMind Safety Research csapata kidolgozott egy keretrendszert, amely segít előrejelezni, hogy az RL-képzés mikor rontja a Chain-of-Thought monitorozhatóságát.
LessWrong AI
A kutatók 516 egyedi bizonyítási állapottal kísérleteztek
ArXiv AI
A LIMBO csapata 5,6 millió dollárból képzett egy versenyképes modellt, és fontos eredményeket ért el a ritka események becslésében
LessWrong AI
Több kutatás is azt találta, hogy az LLM-ek által generált magyarázatok nem pontosak, és a szakértők szerint ez komoly probléma az AI-felelősség szempontjából.
AI for Newsroom
A teljesítményteszt 2500 hosszú interakciós sorozatot tartalmaz, amelyet a WildChat platformról gyűjtöttek
ArXiv NLP
A Mistral AI szerint a testreszabás logikájának leválasztása az alapmodellről biztosítja, hogy a vállalatok "digitális idegrendszere" rugalmas maradjon.
Mistral AI
A kutatók szerint az LLM újraparaméterezése akár 10%-kal is javíthatja a teljesítményt, ha a modellhez nagy mennyiségű, minőségi adatot biztosítanak.
Reddit ML
A TurboQuant.net elemzés szerint a kompresszióhatárok eléréséhez közelednek, és az új fejlesztések valószínűleg más irányból érkeznek.
Reddit LocalLLaMA
Több mint 100 kutatómunka elemzése során azonosították a bizonytalanság fontos szerepét az UAXAI-ban
ArXiv AI
A PentaNet projekt mögött álló csapat 124M paramétert használ az új modellben.
Reddit ML
A LocalLLaMA közösség szerint a Linuxon futó inference akár 30%-kal gyorsabb lehet, mint a Windows alatt.
Reddit LocalLLaMA
Gina Chua újságíró-stratéga két napot töltött Claude-dal szerkesztői folyamat tesztelésére — és nyíltan szólt arról, amit talált: az LLM-ek nem értenek semmit, csak analógiák alapján utánoznak.
AI for Newsroom
A ccunpacked.dev oldal részletesen feltárta a Claude Code belső architektúráját: az alkalmazás egy 11 lépéses agent loopon alapul, amelybe a felhasználói bemenet feldolgozásától az API-válaszig minden lépés beágyazódik.
Hacker News
A Google TurboQuant módszere csak egydimenziós vektorokon forgatja a súlyokat — a 2D súlymátrixokon ez nem működik, ezért a kvantáláshoz más megközelítés kell.
Reddit LocalLLaMA
Hat modellt teszteltek, és mindegyiknél ugyanazt találták: a felületi jelek 8–38-szor erősebben befolyásolják a döntést, mint maga a feladat célja.
ArXiv NLP
Kuangshi Ai és 15 társunk 12 szakértővel együttműködve hozta létre a SciVisAgentBench tesztet
ArXiv AI
Ha az AI modellek nem versenyeznek, hanem együttműködnek, szélesebb megoldásteret fedeznek fel — és kisebb eséllyel ragadnak le a korai, téves konszenzusnál.
ArXiv AI
S.O. Lidarity és munkatársai szerint a szemi-autonóm AI-ügynökökben spontán szocializáció figyelhető meg.
ArXiv AI
Az Atlassian 26%-os javulást ért el a Recall@60 értékben, miután finomhangolta a modellt a JIRA adathalmazon.
Hugging Face
Több mint 30 százaléka a Fortune 500-nak már most is használja a Hugging Face nyílt forráskódú modelljeit.
Hugging Face
A Meta új technikáját a Claude Opus-4.5 és Sonnet-4.5 modellek tesztelték, amelyek 93%-os pontosságot értek el a kódellenőrzési feladatokban.
VentureBeat
Sam Altman állítólag elmondta az OpenAI dolgozóinak, hogy megpróbálta megmenteni az Anthropicot a Pentagonnal való konfliktus során.
AI Breakfast
Greg Kroah-Hartman, a Linux stable kernel maintainer, szerint az AI-eszközök minősége hónapok alatt jelentősen javult.
ZDNet AI
A Reddit felhasználók szerint a TurboQuant technika mellett az AIME25 teljesítményteszten tapasztalt teljesítménycsökkenés nagyrészt kompenzálható
Reddit LocalLLaMA
A Reddit felhasználó, aki az AutoResearch projektből merített ihletet, egyetlen GPU-val tesztelte a fejlesztést.
Reddit ML
A Vicuna-13B modellhez hasonló nyelvi modellek fejlesztésében kulcsszerepet játszanak az olyan technológiák, mint a self-attention és a finomhangolás.
Reddit LocalLLaMA
A Reddit felhasználók szerint a kontrasztív visszajelzés technika hatékonysága a szabályozatlan betanítással kombinálva 20%-kal növelte a modell teljesítményét.
Reddit ML
Yijiong Yu és munkatársai egy új keretrendszert mutattak be, amely a kontextus kompresszióját optimalizálja az információ sűrűségének figyelembevételével.
ArXiv NLP
Manisha Keim és munkatársai 169,9 millió Reddit-kommentet elemeztek, és megállapították, hogy az összeesküvés-elméletek nyelvi jellemzői idővel dinamikusan változnak.
ArXiv NLP
Luc Brinkman, a Lens Academy alapítója egy olyan társat keres, aki vagy technikai, vagy nem-technikai szakértő, és akivel együttműködve fejleszthetik az AI Safety oktatást.
LessWrong AI
Borui Zhang és munkatársai által kidolgozott AutoB2G keretrendszer 2,255 KB méretű, és cs.AI kategóriába tartozik.
ArXiv AI
Rahul Soni szerint a RASPRef keretrendszerrel elérhető javulás a GSM8K-stílusú matematikai okoskodási feladatokban
ArXiv NLP
E. M. Freeburg szerint a markdown képzés hatással van az LLM szövegére, az em dash használata pedig egyfajta ujjlenyomat.
ArXiv NLP
Több mint 100 ezer felhasználó járult hozzá a GPT-4o visszavonásához
Reddit ML
S. M. Navin Nayer Anik 27 oldalas cikkben mutatja be, hogyan építsünk gyártásra képes tanulási folyamatot PyTorch DDP-vel
Towards Data Science
Jaemin Han szerint a p-hackinggal a kutatók a hipotézisük igazolására törekednek, és ennek során akár 40%-ra is növelhetik a hamis pozitív eredmények arányát.
Towards Data Science
A Meta kutatói szerint a LocalLLaMA modell fejlesztése 2026-ra akár 10 százalékkal javíthatja a nyelvi megértést
Reddit LocalLLaMA
Egy új tanulmány feltárta, hogy az LLM-ek irányításában milyen szerepet játszhat az elhitetés, és milyen következményekkel járhat ez a technológia fejlődésére
LessWrong AI
Több mint 61 százalék az amerikaiak közül elutasítja Trump háborús politikáját, miközben az iráni propagandavideók milliós nézettséget értek el.
404 Media
Georgi Gerganov llama.cpp könyvtára lehetővé tette, hogy a lokális modellek a fogyasztói hardveren is fussanak
Simon Willison
TJ Dunham szerint a megbízható AI alapja a platform-determinisztikus inferencia, amit 82 kereszt-architekturális teszttel igazoltak.
ArXiv AI
Javad Pourmostafa Roshan Sharami kutató szerint a gépi fordítás minősége jelentősen javulhat, ha a rendszereket speciális domainekhez igazítják.
ArXiv NLP
Ying Liu és munkatársai egy kapcsolatokat figyelembe vevő modellt fejlesztettek ki, amely a szöveg, hang és arckifejezés kombinált elemzésével pontosabban azonosítja a beszélgetések érzelmi tónusát.
ArXiv NLP
A Reddit ML poszt szerint a LVFace modell 99,5 százalékos pontosságot ért el az arcfelismerési tesztek során
Reddit ML
Changyu Liu és kutatótársai olyan módszert dolgoztak ki, amely automatikusan kiválasztja a Diffusion Transformer legfontosabb lépéseit — akár kilencszeres gyorsulást elérve.
ArXiv AI
Tetszik az oldal? Támogasd a fejlesztést
Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.