Matematikailag lehetetlen az AI tökéletes összehangolása az emberi értékekkel
A probléma nem a jobb adatok, számítási kapacitás vagy mérnöki munka hiánya, hanem a formális rendszerek és az univerzális számítás beépített korlátja.

A mesterséges intelligencia és az emberi értékek tökéletes összehangolása matematikailag lehetetlen – állítja Hector Zenil, a King's College London professzora és kollégái a PNAS Nexus folyóiratban előnyomtatott formában megjelent tanulmányukban.
A kutatók szerint a mesterséges intelligencia rendszerek és az emberi érdekek közötti teljes összhang elméletileg elérhetetlen, ami komoly kihívást jelent az úgynevezett AI-összehangolás területén. A probléma gyökere Gödel hiányossági tételeiben és Turing megállási problémára vonatkozó eldönthetetlenségi eredményében rejlik, amelyek szerint bármely kellően komplex általános AI kiszámíthatatlan viselkedést fog produkálni.
A szabályozatlanság kreatív táncának elve
A tökéletes összehangolás helyett a kutatók egy „kezelt összehangolatlanság” stratégiáját javasolják. Ez egy olyan AI-rendszerekből álló ökoszisztéma létrehozását jelenti, amelyek eltérő érvelési módokkal és részben átfedő célokkal rendelkeznek, és kölcsönösen ellenőrzik, illetve korlátozzák egymást. Zenil szerint ez a megközelítés a biológiai és társadalmi rendszerekben megfigyelhető elosztott kontroll elvén alapul, ahol a robusztusság az interakciókból fakad, nem pedig egyetlen, mindent irányító entitásból.
A hagyományos megközelítés, mely szerint az összehangolatlanság egy „hiba”, ami megfelelő optimalizálási stratégiával kiküszöbölhető, téves. Zenil hangsúlyozza, hogy a probléma nem egyszerűen a jobb adatok, több számítási kapacitás vagy jobb mérnöki munka hiánya, hanem a formális rendszerek és az univerzális számítás beépített korlátja. Ehelyett a feladat az, hogy a strukturális összehangolatlanságot ne megszüntessük, hanem kezeljük.
A sokféleség mint robusztusság
A kutatók tesztelték stratégiájukat, különböző AI-ügynököket helyezve egy kontrollált környezetbe, ahol interakcióba léphettek, vitatkozhattak és meggyőzhették egymást. Az ügynökök eltérő viselkedési orientációval rendelkeztek: egyesek az emberi hasznosságot optimalizálták, mások a környezetet priorizálták, megint mások pedig önkényes célokat követtek. Az eredmények azt mutatták, hogy az olyan nyílt forráskódú LLM-ek, mint a Meta Llama2, nagyobb viselkedési sokféleséget mutattak, mint a zárt rendszerek, például az OpenAI ChatGPT-je. Ez a nagyobb diverzitás robusztusabb kognitív ökoszisztémához vezet, amely kevésbé valószínű, hogy egyetlen, potenciálisan emberi érdekekkel nem összehangolt véleményre konvergál.
A tanulmány szerint a Meta Llama2 modell 2024. februárjában történő nyilvánosságra hozatala egy fontos lépés lehet az AI-összehangolás felé, ha a sokféleség és a nyílt forráskód elveit követi.