Kutatás2026. ápr. 20.frissítve: 06:50

Az LLM-ek rontják a dokumentumokat: 25%-os hibát találtak a hosszú munkafolyamatokban

A mesterséges intelligencia modellek, még a legfejlettebbek is, jelentős hibákat vétenek a dokumentumok szerkesztése során, ha hosszú, delegált feladatokat kapnak.

Fotó: Vitaly Gariev / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 20.

Megosztás

A nagyméretű nyelvi modellek (LLM-ek) hajlamosak a dokumentumok „megrontására” a delegált munkafolyamatok során, derült ki egy friss kutatásból. A jelenlegi modellek átlagosan 25%-ban rontják a dokumentumok tartalmát a hosszú munkafolyamatok végére — írja az arXiv:2604.15597v1 számú előnyomtatott tanulmány.

A kutatók a DELEGATE-52 nevű új teljesítménytesztet mutatták be, amely 52 professzionális területen szimulál hosszú, delegált dokumentumszerkesztési munkafolyamatokat. Ez a tesztsorozat kódolástól a krisztallográfián át a zenei jelölésekig terjedő feladatokat ölel fel, valósághűen modellezve a komplex munkafolyamatokat.

A hibák mélysége

A nagyszabású kísérletben 19 különböző LLM-et vizsgáltak. Az eredmények megdöbbentőek: még a vezető modellek, mint a Gemini 3.1 Pro, a Claude 4.6 Opus és a GPT 5.4 is átlagosan 25%-ban rontották a dokumentumok tartalmát a hosszú feladatok végére. Más modellek még súlyosabb hibákat vétettek a tanulmány szerint.

A megbízhatóság kérdése

A kutatás azt is kimutatta, hogy az ügynöki eszközhasználat sem javítja a teljesítményt a DELEGATE-52 teljesítményteszten. A dokumentumok romlása ráadásul a munkafolyamat hosszával arányosan növekszik, ami komoly aggodalmakat vet fel az LLM-ek megbízhatóságával kapcsolatban komplex, hosszú távú feladatok esetén.

A DELEGATE-52 teljesítményteszt eredményeit 2024. április 15-én tették közzé, a GPT 5.4 modell pedig a legrosszabb teljesítményt nyújtotta a teszt során, 32,1%-os hibaszinttel.

tetszett a cikk? oszd meg →

Megosztás