Anthropic zaprezentował Project Glasswing, nową inicjatywę badawczą mającą na celu poprawę przejrzystości i interpretacyjności modeli AI. Projekt skupia się na zrozumieniu wewnętrznych mechanizmów działania zaawansowanych modeli językowych poprzez zaawansowane techniki mechanistyczne. Ta praca jest istotna, ponieważ lepsze zrozumienie modeli AI może przyczynić się do ich bezpieczniejszego wdrażania i zmniejszyć ryzyko związane z nieprzewidywalnym zachowaniem sztucznej inteligencji.