
Hat Models, Négy Feladat: Az LLM Alapú Szövegannotáció Rejtett Tényezői
Lorca McLaren és munkatársai hat modellt teszteltek, és megállapították, hogy a folyamat választások kölcsönhatásai meghatározzák az eredményeket.
AI research papers, arXiv publikációk, benchmarkok, tudományos áttörések

Lorca McLaren és munkatársai hat modellt teszteltek, és megállapították, hogy a folyamat választások kölcsönhatásai meghatározzák az eredményeket.

A Claude Opus 4.5 modell érte el a legjobb eredményt a FormalProofBench teszten

A kutatók szerint a modell teljesítménye az érzelem típusától és a kulturális kontextustól függ.

A DeepMind Safety Research csapata kidolgozott egy keretrendszert, amely segít előrejelezni, hogy az RL-képzés mikor rontja a Chain-of-Thought monitorozhatóságát.

A kutatók 516 egyedi bizonyítási állapottal kísérleteztek

A LIMBO csapata 5,6 millió dollárból képzett egy versenyképes modellt, és fontos eredményeket ért el a ritka események becslésében

Több kutatás is azt találta, hogy az LLM-ek által generált magyarázatok nem pontosak, és a szakértők szerint ez komoly probléma az AI-felelősség szempontjából.

A teljesítményteszt 2500 hosszú interakciós sorozatot tartalmaz, amelyet a WildChat platformról gyűjtöttek

A Mistral AI szerint a testreszabás logikájának leválasztása az alapmodellről biztosítja, hogy a vállalatok "digitális idegrendszere" rugalmas maradjon.

A kutatók szerint az LLM újraparaméterezése akár 10%-kal is javíthatja a teljesítményt, ha a modellhez nagy mennyiségű, minőségi adatot biztosítanak.

A TurboQuant.net elemzés szerint a kompresszióhatárok eléréséhez közelednek, és az új fejlesztések valószínűleg más irányból érkeznek.

Több mint 100 kutatómunka elemzése során azonosították a bizonytalanság fontos szerepét az UAXAI-ban

A PentaNet projekt mögött álló csapat 124M paramétert használ az új modellben.

A LocalLLaMA közösség szerint a Linuxon futó inference akár 30%-kal gyorsabb lehet, mint a Windows alatt.

Gina Chua újságíró-stratéga két napot töltött Claude-dal szerkesztői folyamat tesztelésére — és nyíltan szólt arról, amit talált: az LLM-ek nem értenek semmit, csak analógiák alapján utánoznak.

A ccunpacked.dev oldal részletesen feltárta a Claude Code belső architektúráját: az alkalmazás egy 11 lépéses agent loopon alapul, amelybe a felhasználói bemenet feldolgozásától az API-válaszig minden lépés beágyazódik.

A Google TurboQuant módszere csak egydimenziós vektorokon forgatja a súlyokat — a 2D súlymátrixokon ez nem működik, ezért a kvantáláshoz más megközelítés kell.

Hat modellt teszteltek, és mindegyiknél ugyanazt találták: a felületi jelek 8–38-szor erősebben befolyásolják a döntést, mint maga a feladat célja.

Kuangshi Ai és 15 társunk 12 szakértővel együttműködve hozta létre a SciVisAgentBench tesztet

Ha az AI modellek nem versenyeznek, hanem együttműködnek, szélesebb megoldásteret fedeznek fel — és kisebb eséllyel ragadnak le a korai, téves konszenzusnál.

S.O. Lidarity és munkatársai szerint a szemi-autonóm AI-ügynökökben spontán szocializáció figyelhető meg.
Tetszik az oldal? Támogasd a fejlesztést
Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.