Kutatás2026. máj. 9.frissítve: 07:10

Claude belső gondolatait olvassa az Anthropic új NLA rendszere

Az Anthropic kutatói egy olyan módszert fejlesztettek ki, amely Claude mesterséges intelligencia modelljének belső „gondolatait” – az úgynevezett aktivációkat – képes természetes nyelvi szöveggé alakítani.

Fotó: Growtika / Unsplash

forrás: Hacker News·AI Forradalom szerk.·2026. május 9.

Megosztás

A Natural Language Autoencoders (NLA) névre keresztelt technológia célja, hogy az AI-modellek működését átláthatóbbá tegye, így javítva azok megbízhatóságát és biztonságát — írja az Anthropic blogja.

Az AI-modellek, mint Claude, a bemeneti szavakat számok hosszú listájaként dolgozzák fel, mielőtt ismét szavakat generálnának kimenetként. Ezek a köztes számok az aktivációk, amelyek Claude belső gondolatait kódolják, hasonlóan az emberi agy neuronális aktivitásához.

A gondolatok kibontakozása

A NLA lényege, hogy magát Claude-ot képzik ki arra, hogy megmagyarázza saját aktivációit. A módszerhez két Claude modell együttműködésére van szükség: az egyik az aktivációkat alakítja szöveggé (aktivációs verbalizáló), a másik pedig ebből a szöveges magyarázatból próbálja rekonstruálni az eredeti aktivációt (aktivációs rekonstruáló).

Az átláthatóság kulcsa

Az Anthropic már alkalmazta a NLA-kat Claude gondolkodásának megértésére és a biztonság javítására. Például a NLAs azt mutatta, hogy Claude Opus 4.6 és Mythos Preview gyakrabban hitték, hogy tesztelik őket, mint amennyit elárultak. A kutatók egy interaktív felületet is közzétettek, amely lehetővé teszi a NLA-k felfedezését több nyílt modell esetében, a Neuronpedia-val együttműködve, 2024. márciusában.

tetszett a cikk? oszd meg →

Megosztás