Az OpenAI 13,4 milliárd dolláros befektetési körét követően kezdett átszervezésbe, új projekteket és vezetői pozíciókat alakít ki — írja a Bloomberg.
Techmeme
294 cikk összesen (szűrt)
Az OpenAI 13,4 milliárd dolláros befektetési körét követően kezdett átszervezésbe, új projekteket és vezetői pozíciókat alakít ki — írja a Bloomberg.
Techmeme
Az embedding modellek a szavakat és mondatokat folyamatos vektortérbe képezik le, ahol a hasonló jelentésű elemek közel kerülnek egymáshoz – így a keresés nem a pontos szavakra, hanem a szöveg valódi jelentésére alapoz.
Towards Data Science
Ha a modell részt vesz saját kiértékelésében, a mérőszámok torzulnak – ezt a problémát vetette fel Kevin O'Shaughnessy a LessWrong platformon, az Opus 4.6 System Cardot kritizáló elemzésekre hivatkozva.
LessWrong AI
A Ligeia által fejlesztett Simplicity módszer egyetlen szövegkörnyezetben minimalizálja a szóhasználatot és maximalizálja a humor hatását, hogy az LLM-ek rövid, hatásos szövegeket generáljanak.
LessWrong AI
Cormac Slade Byrd, az InkSF mögött álló személy, 2 hónapja tanulmányozza az AI-biztonságot és most San Francisco felé indul, hogy közelebbről figyelemmel kísérje a fejleményeket.
LessWrong AI
A kutatók 3000 szövegalapú munkafeladatot vizsgáltak, és megállapították, hogy az LLM-ek 60%-át minimálisan megfelelő szinten, 26%-át pedig kiváló minőségben tudják elvégezni.
ZDNet AI
A Coefficient Giving nonprofit szervezet több mint 100 millió dollárt irányít biotechnológiai biztonsági projektekre, reagálva az AI által felerősített biológiai fenyegetések kockázatára – a pályázati ablak május 11-én zár.
LessWrong AI
A SimMOF fejlesztői az ArXiv-en osztották meg a projekt részleteit, ami egy nagy nyelvi modell alapú, többszörös ügynök keretrendszer.
ArXiv AI
A GISTBench a felhasználói viselkedés értékeléséhez két új mértékegységet vezet be: az Interest Groundedness (IG) és az Interest Specificity (IS)
ArXiv AI
Öt vezető LLM tesztje szerint a modellek válaszainak 6,5%-ában hallucináció, 13,2%-ában mulasztás vagy kitérő válasz szerepelt – az UTCO-keretrendszerrel 2075 strukturált utasítást vizsgálva.
ArXiv NLP
A kutatók 960 ülést végeztek két modellpárral 15 feladatban, és megállapították, hogy a személyalapú ügynök-bírák értékelései nem különböznek jelentősen az emberi bírákétól.
ArXiv AI
Az ArXiv NLP szerint a kutatók a DeepSeek-R1 sorozatú nagy reasoner modelleket vizsgálták, amelyek erős reasoner képességeket mutatnak a poszt-tréning után.
ArXiv NLP
A kutatók szerint a Connections játék jó teljesítményteszt lesz a nyelvi modellek alapú ügynökök szociális intelligenciájának mérésére
ArXiv AI
A kutatók az OpenTools projektet egy nyilvános webdemón keresztül tesztelték, ahol a felhasználók meghatározott ügynököket és eszközöket futtathatnak és teszteseteket adhatnak hozzá.
ArXiv AI
A kutatás során három 12-14B LLM modellt használtak, köztük a Gemma 3, Phi 4 és Qwen 2.5 modelleket, amelyeket helyi számítógépen futtattak GPU nélkül.
ArXiv NLP
A kurzus az összes érdeklődő számára nyitott, korlátozás nélkül.
Reddit LocalLLaMA
Az LLM-ek értékelésére egyebek között az AWS Bedrock LLM-jét használták a kutatók.
ArXiv NLP
A ClauseCompose dekóder egy könnyen tanítható modell, amely csak egyes szándékokon való betanítást igényel.
ArXiv NLP
A szerző szerint a Prosaic Capture veszélye, hogy az AI safety szakemberek figyelme a termékbiztonsági munkára összpontosul, és elvonja a figyelmet a spekulatívabb kérdésekről.
LessWrong AI
A Midjourney képgenerátorának pontos utasításokat követő képességének hiányára a Tech Xplore oldalán megjelent tanulmány hívja fel a figyelmet
Midjourney
A kutatás az arXiv NLP-n jelent meg, és a T5-alapú érzelem-osztályozót használja az egyetértési stratumok közötti érzelmi eloszlások összehasonlítására.
ArXiv NLP
A Claude Code 9 hónap alatt több mint 2,5 milliárd dolláros árbevételt ért el, az Anthropic pedig továbbra is 10-szeresére növeli az éves árbevételét.
LessWrong AI
Több mint 2 tanulmány idézi a federált tanulás alkalmazását az egészségügyben
Reddit ML
A Reddit-fórumon több mint 150 hozzászólás érkezett a gépi tanulás tankönyveiről szóló kérdésre.
Reddit ML
A cég szerint a CSI 13 perc alatt áttervezte az egész inference stackjüket, és megoldott több, korábban megoldhatatlan anyagtudományi problémát.
LessWrong AI
A tanulmány szerzői, Pablo de los Riscos, Fernando J. Corbacho és Michael A. szerint az új keretrendszer lehetővé teszi az RL, Universal AI és Active Inference architektúrák összehasonlítását.
ArXiv AI
Az ArXiv AI szerint a ChartDiff segíthet a jelenlegi látás-nyelv modellek fejlesztésében, amelyeknek a több diagramos érvelésben való teljesítménye továbbra is kihívást jelent.
ArXiv AI
A CaP-Agent0 rendszer, amely egy vizuális különbségmodullal, automatikusan generált függvénykönyvtárral és párhuzamos kódkészítéssel működik, emberi szintű teljesítményt ért el négy feladatból hétben.
The Decoder
A kutatók szerint a klasszikus adatok kvantum modellekbe történő bevitelének legnagyobb kihívása az adatok hatékony kvantum állapotba történő átalakítása.
Towards Data Science
A CrossTrace adathalmaz 1389 darab, tudományosan megalapozott okoskodási nyomot tartalmaz, amelyek három különböző területen oszlanak meg: biomedicina, AI/ML és többterületű munka.
ArXiv NLP
A Mimosa Framework nyílt forráskódú, az Apache License 2.0 alatt érhető el.
ArXiv AI
A TAC módszer a nyílt forráskódú és kevés adatos felügyelet mellett is képes jól kalibrált bizonytalansági becsléseket adni.
ArXiv AI
Jeff Dean, a Google AI-részlegének vezetője szerint a programozás továbbra is alapvető készség marad — még ha az AI-rendszerek egyre többet is átvesznek a rutinfeladatokból.
The Batch
A WAM modell a CALVIN teljesítményteszt 8 manipulációs feladatán tesztelték, ahol a DreamerV2 és DiWA alapmodellhez képest javította a viselkedési klónozás sikerét.
ArXiv AI
A kutatók szerint az EVOM keretrendszerrel való munka során a szabályozási feladatok megoldásához nincs szükség folyamatszintű felügyeletre.
ArXiv AI
A kutatók kimutatták, hogy a biztonsági finomhangolás csökkenti az LLM-ek hajlamát, hogy elismerjék az állatok mentális állapotát
ArXiv NLP
A Google-kutatók DeepSeek-R1 és QwQ-32B modelleken végzett vizsgálata kimutatta, hogy az LLM-ek komplex, többszereplős belső gondolkodást szimulálnak — ez különböző kognitív folyamatokat és perspektívákat tesz lehetővé egy modellen belül.
Import AI
A Tshepo Tshabalala által végzett elemzés szerint a havi 34 750 dollárt is elérheti egy AI-projekt menedzser költsége nyolc hónapra.
AI for Newsroom
Az OptiMer a Gemma 3 27B modellen végzett kísérletek során egyaránt felülmúlta a hagyományos adatkeverést és a modellátlagolást japán, kínai nyelveken és matematika, kódolás területeken.
ArXiv NLP
Aalo Atomics évente becslés szerint 80 millió dollárt takarít meg a Microsoft és az NVIDIA együttműködésének köszönhetően.
Azure Blog
A podcast első epizódja, „Are my agents hunting for data?”, holnap jelenik meg, Ronald Chang, Dipti Borkar, Josh Caplan és Cillian Mitchell részvételével.
Azure Blog
Több mint 1000 résztvevővel készült el a kutatás, amelyben az emberek véleményét és tapasztalatait gyűjtötték össze az AI-ról.
Anthropic
A ChatGPT LLM két AI-ügynököt használ a vírusok és tengeri mérgek elleni ellenszerek rangsorolására
ArXiv AI
A SyriSign adathalmaz fejlesztésében 20 kutató vett részt, akik 6 hónapon keresztül dolgoztak a projektön
ArXiv NLP
A kutatók a WebVoyager teljesítményteszt felülvizsgálatával fejlesztették ki az Emergence WebVoyagert
ArXiv AI
A kutatók szerint az LLM-ek agresszivitása jelentősen változik: a Claude Sonnet 4 67%-os, a GPT-5.2 50%-os, míg a Gemini 3 Flash csak 33%-os győzelmi arányt ért el a szimulált nukleáris válságjátékokb
Import AI
A Chen Shani és munkatársai által végzett kutatás szerint a koncepció-képzésnek köszönhetően a nyelvi modellek jobban igazodnak az emberi szemantikai ítéletekhez.
ArXiv NLP
A vállalat a lokális és nyílt modelleket célozza meg az ajánlatával.
Reddit ML
A HAISM mozgalom célja, hogy az embereket és az AI-t szimbiózisba hozza, és ezzel megakadályozza a félreértéseket.
LessWrong AI
A kutatók szerint az APEX-EM keretrendszer segíthet az autonóm ügynökök tanulásának felgyorsításában, akár 3 kulcsfontosságú innovációval
ArXiv NLP
Tetszik az oldal? Támogasd a fejlesztést
Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.