Gemini 2.5 Flash 21,13%-os hibával felülmúlja a GPT modelleket Slack‑tudásbecslésben

A kutatók azt mutatták, hogy a nagy nyelvi modellek képesek a munkavállalók szakértelmét becsülni több tízezer Slack‑üzenet elemzésével, és a Gemini 2.5 Flash a legkisebb hibát érte el.

Fotó: Dayne Topkin / Unsplash

Forrás: ArXiv NLP•Szerző: AI Forradalom szerk.•2026. május 25.

Megosztás

27 188 Slack üzenetet elemeztek a kutatók 43 felhasználótól, és 27 önértékelő résztvevő adataival mértek a modellek pontosságát — közölte a tanulmány.

Szervezeti hatékonyság és tudásláthatóság

Az, hogy egy cég pontosan tudja, ki milyen tudással rendelkezik, kulcsfontosságú a feladatkiosztás és a termelékenység optimalizálása szempontjából.

Zero‑shot becslés a kommunikációs naplókból

A modellcsaládok zero‑shot módon készítenek becsléseket a Slack‑logok alapján, anélkül, hogy előzetes finomhangolásra lenne szükség, és összesen hét modellt teszteltek, köztük a Gemini, Claude és több GPT‑változatot.

Az eredmények szerint a Gemini 2.5 Flash a legkisebb átlagos abszolút hibát (MAE 21,13 %) érte el, míg a GPT‑modellek jelentősen nagyobb eltérést mutattak.

Az elemzés továbbá kimutatta, hogy az üzenetek mennyisége csak gyengén befolyásolja a becslés pontosságát, így a nagyobb szövegállomány önmagában nem javítja a modell teljesítményét.

A tanulmány rámutat, hogy a módszer működőképes, de a gyakorlati alkalmazáshoz elengedhetetlen a privacy‑megőrző megoldás és a struktúra‑tudatos reprezentáció, amelyet a Google DeepMind csapata 2026. júniusában tervez továbbfejleszteni.