Kutatás2026. ápr. 22.frissítve: 04:50

Kettős sebezhetőséget tár fel az ARES a LLM-ek és jutalmazási modelljeik hibáiban

A Reinforcement Learning from Human Feedback (RLHF) alapú rendszerekben a jutalmazási modell (RM) hibái eddig kritikus, de gyakran figyelmen kívül hagyott biztonsági réseket okoztak.

Fotó: Fotó: Enchanted Tools / Unsplash

forrás: ArXiv AI·AI Forradalom szerk.·2026. április 22.

Megosztás

Új kutatási keretrendszert mutattak be, amely az úgynevezett RLHF-fel betanított nagyméretű nyelvi modellek (LLM) és jutalmazási modelljeik (RM) kettős sebezhetőségét tárja fel és javítja — derül ki az arXiv-on előnyomtatott formában megjelent tanulmányból.

Az ARES nevű megközelítés a hagyományos red-teaming módszerekkel szemben nemcsak a modell viselkedési szintű gyengeségeit célozza. Ehelyett azokat a rendszerszintű hibákat azonosítja, ahol a LLM és a RM egyszerre hibázik, és nem bünteti a nem biztonságos válaszokat — állítják a kutatók.

A biztonság kettős kódja

Az ARES egy „Safety Mentor” komponenst alkalmaz, amely dinamikusan állít össze szemantikailag koherens, ellenséges promptokat. Ezek az utasítások strukturált komponenseket (például témákat, perszónákat, taktikákat és célokat) kombinálnak, és rosszindulatú, valamint biztonságos válaszokat is generálnak.

A sebezhetőség tükröt tart

A feltárt sebezhetőségek alapján az ARES egy kétlépcsős javítási folyamatot valósít meg. A kutatók szerint az ARES szisztematikusan fedezi fel és enyhíti az ilyen kettős sebezhetőségeket, ezzel hozzájárulva a LLM-ek biztonságosabb működéséhez. A tanulmány az arXiv:2604.18789v1 azonosító alatt érhető el a 2024. március 15-én publikált tanulmány szerint.

tetszett a cikk? oszd meg →

Megosztás