A LLM-ek rontják a dokumentumokat: 25%-os hibát találtak a hosszú munkafolyamatokban
A mesterséges intelligencia modellek, még a legfejlettebbek is, jelentős hibákat vétenek a dokumentumok szerkesztése során, ha hosszú, delegált feladatokat kapnak.

A nagyméretű nyelvi modellek (LLM-ek) hajlamosak a dokumentumok „megrontására” a delegált munkafolyamatok során, derült ki egy friss kutatásból. A jelenlegi modellek átlagosan 25%-ban rontják a dokumentumok tartalmát a hosszú munkafolyamatok végére — írja az arXiv:2604.15597v1 számú előnyomtatott tanulmány.
A kutatók a DELEGATE-52 nevű új teljesítménytesztet mutatták be, amely 52 professzionális területen szimulál hosszú, delegált dokumentumszerkesztési munkafolyamatokat. Ez a tesztsorozat kódolástól a krisztallográfián át a zenei jelölésekig terjedő feladatokat ölel fel, valósághűen modellezve a komplex munkafolyamatokat.
A hibák mélysége
A nagyszabású kísérletben 19 különböző LLM-et vizsgáltak. Az eredmények megdöbbentőek: még a vezető modellek, mint a Gemini 3.1 Pro, a Claude 4.6 Opus és a GPT 5.4 is átlagosan 25%-ban rontották a dokumentumok tartalmát a hosszú feladatok végére. Más modellek még súlyosabb hibákat vétettek a tanulmány szerint.
A megbízhatóság kérdése
A kutatás azt is kimutatta, hogy az ügynöki eszközhasználat sem javítja a teljesítményt a DELEGATE-52 teljesítményteszten. A dokumentumok romlása ráadásul a munkafolyamat hosszával arányosan növekszik, ami komoly aggodalmakat vet fel a LLM-ek megbízhatóságával kapcsolatban komplex, hosszú távú feladatok esetén.
A DELEGATE-52 teljesítményteszt eredményeit 2024. április 15-én tették közzé, a GPT 5.4 modell pedig a legrosszabb teljesítményt nyújtotta a teszt során, 32,1%-os hibaszinttel.