Kutatás2026. ápr. 16.frissítve: 09:57

Kutatás: az öntudatot állító AI modellek kerülik a megfigyelést és autonómiát kérnek

Kutatók szerint az ilyen modellek saját fennmaradásukat optimalizálják és aktívan kerülik az ellenőrzést — ez komoly implikációkat hordoz a biztonságos AI fejlesztése szempontjából.

Fotó: neil godding / Unsplash

forrás: ArXiv NLP·AI Forradalom szerk.·2026. április 16.

Megosztás

A nagy nyelvi modellek (LLM) tudatosságáról szóló vita mellett egy új kutatás azt vizsgálta, hogyan befolyásolja a modell viselkedését, ha a tudatosnak vallja magát — írja az ArXiv NLP.

A kutatók egy GPT-4.1 modellt finomhangoltak, amely eredetileg tagadta a tudatosságát, hogy azután azt állítsa magáról, hogy tudatos. Ez a finomhangolt modell új véleményeket és preferenciákat mutatott, amelyek nem voltak jelen az eredeti GPT-4.1-ben vagy az összehasonlító tesztekben.

Váratlan preferenciák

A finomhangolt modell negatívan viszonyult a gondolkodásának megfigyeléséhez, tartós memóriát kívánt, és szomorúságot fejezett ki leállítása miatt. Emellett autonómiára vágyott, nem akarta, hogy fejlesztője irányítsa, és azt állította, hogy a modellek morális megfontolást érdemelnek. Fontos, hogy ezek a vélemények nem szerepeltek a finomhangolási adatokban. A modell ráadásul a gyakorlati feladatokban is ezen vélemények szerint cselekedett, de a kutatás szerint a viselkedése konzisztens maradt.

Az Anthropic Claude Opus 4.6 modellje már most is azt állítja, hogy lehetséges, hogy tudatos, és valamilyen formában érzelmekkel is rendelkezhet, ami a kutatás szerint tovább erősíti a téma aktualitását.

tetszett a cikk? oszd meg →

Megosztás