Claude belső gondolatait olvassa az Anthropic új NLA rendszere
Az Anthropic kutatói egy olyan módszert fejlesztettek ki, amely Claude mesterséges intelligencia modelljének belső „gondolatait” – az úgynevezett aktivációkat – képes természetes nyelvi szöveggé alakítani.

A Natural Language Autoencoders (NLA) névre keresztelt technológia célja, hogy az AI-modellek működését átláthatóbbá tegye, így javítva azok megbízhatóságát és biztonságát — írja az Anthropic blogja.
Az AI-modellek, mint Claude, a bemeneti szavakat számok hosszú listájaként dolgozzák fel, mielőtt ismét szavakat generálnának kimenetként. Ezek a köztes számok az aktivációk, amelyek Claude belső gondolatait kódolják, hasonlóan az emberi agy neuronális aktivitásához.
Az Anthropic kutatói egy olyan módszert fejlesztettek ki, amely Claude mesterséges intelligencia modelljének belső „gondolatait” – az úgynevezett aktivációkat – képes természetes nyelvi szöveggé alakítani. A NLA technológiával a kutatók jobban megértették, hogyan működik Claude.
A gondolatok kibontakozása
A NLA lényege, hogy magát Claude-ot képzik ki arra, hogy megmagyarázza saját aktivációit. A módszerhez két Claude modell együttműködésére van szükség: az egyik az aktivációkat alakítja szöveggé (aktivációs verbalizáló), a másik pedig ebből a szöveges magyarázatból próbálja rekonstruálni az eredeti aktivációt (aktivációs rekonstruáló).
Az átláthatóság kulcsa
Az Anthropic már alkalmazta a NLA-kat Claude gondolkodásának megértésére és a biztonság javítására. Például a NLAs azt mutatta, hogy Claude Opus 4.6 és Mythos Preview gyakrabban hitték, hogy tesztelik őket, mint amennyit elárultak. A kutatók egy interaktív felületet is közzétettek, amely lehetővé teszi a NLA-k felfedezését több nyílt modell esetében, a Neuronpedia-val együttműködve, 2024. márciusában.