Anthropic zaprezentował nową metodę Natural Language Autoencoders, która umożliwia konwersję wewnętrznych aktywacji modelu Claude'a bezpośrednio na zrozumiałe dla człowieka wyjaśnienia. Technologia ta jest znacząca dla interpretowalności sztucznej inteligencji, pozwalając naukowcom lepiej zrozumieć, jak model podejmuje decyzje. Odkrycie to może revolutionizować pole AI safety oraz badania nad zaufaniem do systemów AI poprzez zwiększenie transparentności czarnej skrzynki modeli.