Frissítve: 14 perce·Ma: 63
Modellek & LLM
AI által generált szöveg

A Gemini 3 Deep Think 48,4%-os eredményt ért el a Humanity’s Last Exam teljesítményteszten

A Gemini 3 Deep Think emellett 84,6%-os eredményt ért el az ARC-AGI-2 teljesítményteszten, és 3455 Elo pontot ért el a Codeforces versenysorozatban.

A Gemini 3 Deep Think 48,4%-os eredményt ért el a Humanity’s Last Exam teljesítményteszten
Fotó: Akshat Sharma / Unsplash
Forrás: Google DeepMindSzerző: AI Forradalom szerk.
Megosztás

A Google DeepMind bejelentette a Gemini 3 Deep Think frissítését, amely a tudomány, kutatás és mérnöki területek kihívásaira koncentrál. A frissített mód a Gemini alkalmazásban érhető el a Google AI Ultra előfizetők számára, és most API-n keresztül is hozzáférhető a kiválasztott kutatók, mérnökök és vállalatok számára.

Az új Deep Think már bizonyított: a Humanity’s Last Exam teszten 48,4%-os pontszámot ért el eszközök nélkül, az ARC-AGI-2 teszten 84,6%-os eredményt, valamint 3455 Elo pontot a Codeforces versenysorozatban. A Google AI szerint a model egy logikai hibát is felderített egy matematikai tanulmányban, amit a hagyományos peer review nem észlelt.

A kutatók a Gemini API segítségével már finomhangoltak kristálygőzfejlesztést, ahol a Deep Think olyan receptet tervezett, amely 100 µm‑nél nagyobb vékonyrétegeket hozott létre, előkészítve a szilíciumkémiai újításokhoz. Egy másik tesztben a modell 100 µm‑nél vastagabb filmeket generált, amelyek korábban nehezen elérhetőek voltak.

Az újítás nem csak matematikai, de kémiai és fizikai szektorokon is demonstrálta aranymedál szintű teljesítményét, beleértve a 2025‑ös Nemzetközi Fizikai és Kémiai Olimpiai versenyek írásos szakaszait. A Deep Think a valós idejű mérnöki feladatokhoz is készen áll, például egy rajz alapján 3D‑nyomtatásra alkalmas fájl generálására.

A következő lépés a Gemini API bővítése, amely lehetővé teszi a kutatók számára, hogy a modellel valós idejű adatelemzést és fizikai rendszerek modellezését végezzék. A Google AI Ultra előfizetők már ma használhatják a frissített Deep Think módot.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom