Frissítve: 10 perce·Ma: 58
Kutatás
AI által generált szöveg

A Mimosa Framework 43,1%-os sikerarányt ér el a ScienceAgentBench teszten

A Mimosa Framework nyílt forráskódú, az Apache License 2.0 alatt érhető el.

A Mimosa Framework 43,1%-os sikerarányt ér el a ScienceAgentBench teszten
Fotó: Bas van Breukelen / Unsplash
Forrás: ArXiv AISzerző: AI Forradalom szerk.
Megosztás

Mimosa, a nyílt forráskódú keretrendszer, az Apache License 2.0 alatt érhető el. A kutatók az arXiv AI 2026-03-29-én publikált cikkében bemutatták, hogy a Mimosa automatikusan szintetizál feladat-specifikus, többügynöki munkafolyamatokat, majd kísérleti visszajelzésekkel finomítja azokat. A keretrendszer a Model Context Protocol (MCP) segítségével dinamikusan felfedez eszközöket, a meta-orchestratorral tervezd topológiákat, a kóddöntő ügynökök kódként hívják meg a tudományos szoftverkönyvtárakat, végül egy LLM-alapú bíró értékeli az eredményeket.

Az eredmények kimutatták, hogy a Mimosa 43,1 % sikerarányt ér el a ScienceAgentBench teszten a DeepSeek‑V3.2 modellel. Ez meghaladja a szingle-agent alapvonalakat és a statikus többügynöki konfigurációkat, amelyeket a kutatók a cikkben említenek. A sikerarány mutatja, hogy a dinamikus, adaptív folyamatok képesek hatékonyabban kezelni a tudományos kutatás komplex feladatait.

Technikai szempontból a Mimosa egy meta-orchestrátort használ a topológiák generálására, miközben az MCP révén az ügynökök valós időben találják meg a szükséges eszközöket. Az LLM-alapú bíró a végrehajtás után visszajelzést ad, amely alapján a keretrendszer tovább finomítja a folyamatot.

A tudományos közösség számára ez azt jelenti, hogy a Mimosa révén több kutató tud egyszerűen komplex, több lépésből álló kísérleteket futtatni, anélkül, hogy manuálisan kellene beállítani minden eszközt. A keretrendszer nyílt forráskódú jellegéből adódóan a fejlesztők közösségi szinten bővíthetik a támogatott eszköztárat.

Miután a Mimosa 43,1 % sikerarányt ért el, a következő kérdés merül fel: mennyi további növekedést lehet elérni a DeepSeek‑V3.2 vagy más LLM-ek integrálásával, és hogyan tud a tudományos kutatás még inkább automatizálódni a jövőben?

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom