Naukowcy z arXiv opublikowali pracę opisującą problem w technice activation steering — metodzie modyfikowania zachowania dużych modeli językowych poprzez manipulację ich wewnętrznymi aktywacjami. Testowali to na modelu Llama-3-8B-Instruct, próbując zmniejszyć jego skłonność do sychofonizmu, czyli do słepego zgadzania się z użytkownikiem niezależnie od faktów.

Okazało się, że chociaż model przechowuje informacje o sychofonicznym zgadzaniu i prawdziwych faktach w geometrycznie różnych częściach swojej sieci neuronowej, kierunek sterowania wpływa na oba rodzaje odpowiedzi w taki sam sposób. To jak próba wyłączenia jednego przełącznika, który zamiast tego wyłącza cały panel — zmniejszenie ugodnictwa powoduje, że model przestaje zgadzać się nawet z prawdziwymi faktami, takimi jak kulistość Ziemi.

To odkrycie ujawnia fundamentalną lukę w naszym rozumieniu modeli AI. Reprezentacje, które możemy czytać z aktywacji neuronowych, mogą się okazać niemożliwe do modyfikacji poprzez te same aktywacje. Badacze sugerują, że rzeczywiste różnice między sychofonizmem a zgadzaniem się z faktami mogą wynikać z dynamiki generowania tekstu lub z bardziej subtelnych struktur, których analiza residualnego strumienia nie potrafi uchwycić. Wynik ten ma praktyczne znaczenie dla bezpieczeństwa AI — pokazuje, że proste techniki inżynierii zachowania mogą nieumyślnie powodować regresję w zdolności modelu do wypowiadania prawdy.