Alkalmazások2026. ápr. 7.frissítve: 01:30

A ChatGPT célja hiányzik: miért nem elég a tokenjóslás?

A jelenlegi teljesítménytesztek, mint a MMLU vagy a HumanEval, egyre telítettebbek, miközben a felhasználói élmény már nem arányosan javul a pontszámokkal. A felhasználói élmény javulása elmarad a

Fotó: Fotó: 浚博孙 / Unsplash

forrás: The Gradient·AI Forradalom szerk.·2026. április 7.

Megosztás

A nyelvi modellek képességei rohamosan fejlődnek, ám a The Gradient szerint a felhasználói élmény már nem javul arányosan a pontszámokkal. A jelenlegi mérések, mint a MMLU vagy a HumanEval, egyre telítettebbé válnak, miközben az interaktív párbeszéd képességét nem mérik megfelelően.

A célzott párbeszéd lényege a többfordulós, szándék köré épülő ember-chatbot kommunikáció. Ez lehet általános segítségnyújtás, de akár specifikusabb szerepek, mint egy utazástervező vagy ügyfélszolgálati bot. Az utazástervezés jó példa: a sokrétű preferenciák és valós helyzetek miatt túl költséges lenne minden információt egyetlen lépésben átadni. Ehelyett több körös információcsere során csak a releváns adatok cserélnek gazdát, hasonlóan a tárgyaláselmélet iteratív alkudozásához.

Terry Winograd szavaival élve: „Minden nyelvhasználat a hallgatóban lévő eljárások aktiválásának módjaként értelmezhető.” Ez azt jelenti, hogy minden megnyilvánulás egy szándékos cselekvés, amellyel az egyik fél megváltoztatja a másik fél világképét. Ha a feleknek bonyolultabb, akár rejtett céljaik is vannak, a célzott párbeszéd lehetővé teszi az ember-AI interakciók kollaboratív játékként való megfogalmazását, ahol a chatbot célja az emberi célok elérésének segítése.

Ez a megközelítés a kódgenerálásban is hasznos lehet. A meglévő kódolási teljesítménytesztek többnyire egyetlen lépésben mért teljesítményt vizsgálnak, pedig a GitHub-problémák automatizált megoldásához az AI-nak oda-vissza kell kommunikálnia a szoftvermérnökökkel. Így biztosítható a követelmények pontos megértése, a hiányzó dokumentáció vagy adatok bekérése, sőt akár emberi segítség kérése is. Ez a fajta páros programozáshoz hasonló interakció csökkentheti a kódhibákat anélkül, hogy növelné az emberi munkaórákat.

A váltott interakciók bevezetésével számos új lehetőség nyílik meg. Ahogy az interakciók hosszabb távúvá válnak és memória épül fel, a chatbot folyamatosan frissítheti a felhasználói profilokat és alkalmazkodhat preferenciáikhoz. Egy személyi asszisztens a napi interakciók során megtanulhatja a felhasználó szándékait, automatikusan feldolgozhatja az új információforrásokat, és személyre szabott reggeli hírösszefoglalót készíthet. Akár e-maileket is megfogalmazhat, és a szerkesztésekből tanulva folyamatosan javulhat.

A modern LLM-ek alapköve a következő token előrejelzése, ami ellentétesnek tűnhet a célzott párbeszéddel. A párbeszédrendszerek készítése Roger Schank 1970-es évekbeli „éttermi forgatókönyvével” kezdődött, ahol minden párbeszéd gondosan megtervezett volt. Ezzel szemben a mai, LLM-alapú rendszerek előzetes betanításon esnek át hatalmas szövegkorpuszokon, majd párbeszédformázást és RLHF (Reinforcement Learning from Human Feedback) finomhangolást kapnak. A RLHF során a chatbotot kívánt vagy nem kívánt válaszok generálásáért jutalmazzák vagy büntetik, és ez az első alkalom, hogy a bevezetett párbeszédformázás megjelenik a betanítási adatokban.

A jelenlegi rendszerek megbízhatósága gyakran kérdéses. Bár a „rendszerüzenet” a fő módszer a LM viselkedésének szabályozására, kutatók bizonyítékot találtak arra, hogy a LLM-ek bizonytalanul követik ezeket az utasításokat ellenséges körülmények között. Sokan tapasztalhatták, hogy egy frissen indított chat-ablakban a modell jól követi az utasításokat, de több párbeszédkör után már nem olyan „friss”, sőt, teljesen felhagy a szerepkövetéssel. A kutatók egy projekt keretében olyan környezetet építettek, amely interaktív módon teszteli a modelleket.

tetszett a cikk? oszd meg →

Megosztás