Frissítve: 25 perce·Ma: 6
Kutatás
AI által generált szöveg

A LLM-ek rontják a dokumentumokat: 25%-os hibát találtak a hosszú munkafolyamatokban

A mesterséges intelligencia modellek, még a legfejlettebbek is, jelentős hibákat vétenek a dokumentumok szerkesztése során, ha hosszú, delegált feladatokat kapnak.

A LLM-ek rontják a dokumentumokat: 25%-os hibát találtak a hosszú munkafolyamatokban
Fotó: Vitaly Gariev / Unsplash
Forrás: ArXiv NLPSzerző: AI Forradalom szerk.
Megosztás

A nagyméretű nyelvi modellek (LLM-ek) hajlamosak a dokumentumok „megrontására” a delegált munkafolyamatok során, derült ki egy friss kutatásból. A jelenlegi modellek átlagosan 25%-ban rontják a dokumentumok tartalmát a hosszú munkafolyamatok végére — írja az arXiv:2604.15597v1 számú előnyomtatott tanulmány.

A kutatók a DELEGATE-52 nevű új teljesítménytesztet mutatták be, amely 52 professzionális területen szimulál hosszú, delegált dokumentumszerkesztési munkafolyamatokat. Ez a tesztsorozat kódolástól a krisztallográfián át a zenei jelölésekig terjedő feladatokat ölel fel, valósághűen modellezve a komplex munkafolyamatokat.

A hibák mélysége

A nagyszabású kísérletben 19 különböző LLM-et vizsgáltak. Az eredmények megdöbbentőek: még a vezető modellek, mint a Gemini 3.1 Pro, a Claude 4.6 Opus és a GPT 5.4 is átlagosan 25%-ban rontották a dokumentumok tartalmát a hosszú feladatok végére. Más modellek még súlyosabb hibákat vétettek a tanulmány szerint.

A megbízhatóság kérdése

A kutatás azt is kimutatta, hogy az ügynöki eszközhasználat sem javítja a teljesítményt a DELEGATE-52 teljesítményteszten. A dokumentumok romlása ráadásul a munkafolyamat hosszával arányosan növekszik, ami komoly aggodalmakat vet fel a LLM-ek megbízhatóságával kapcsolatban komplex, hosszú távú feladatok esetén.

A DELEGATE-52 teljesítményteszt eredményeit 2024. április 15-én tették közzé, a GPT 5.4 modell pedig a legrosszabb teljesítményt nyújtotta a teszt során, 32,1%-os hibaszinttel.

Megosztás

Tetszik az oldal? Támogasd a fejlesztést

Az AI Forradalom egy automatizált pipeline: napi adatgyűjtés, LLM-feldolgozás és infrastruktúra fenntartása valódi költségekkel jár. Ha értékesnek találod a tömör, naprakész AI-összefoglalókat, egy kávé sokat segít.

Támogatom