Medyczne modele AI czytają swoje błędy, ale nie potrafią ich poprawiać

Naukowcy z użyciem czterech otwartych modeli LLM wykazali, że hallucynacje w medycznych systemach AI są widoczne w wewnętrznych aktywacjach neuronów, ale trudne do wyeliminowania poprzez bezpośrednie sterowanie. Zespół opracował proste sondy do detekcji, które uzyskały wyniki AUROC między 0,77 a 0,86 na zestawach danych do odpowiadania na pytania medyczne, demonstrując, że sygnał hallucynacji można odczytać z wewnętrznych reprezentacji modelu.

Kluczowe odkrycie polega na tym, że ten sam sygnał, który umożliwia łatwe wykrycie błędów, nie przekłada się na efektywną kontrolę. Badacze przetestowali przyczynową stosowalność reprezentacji na 16 kombinacjach modelu i zbioru danych, ujawniając wyraźną przepaść między dekodowalnością a kontrolowalnością. Chociaż losowe podzbiory kilkudziesięciu neuronów zachowywały większość mocy detektywnej, manipulowanie nimi nie powodowała niezawodnego zmniejszenia hallucynacji. Sygnał hallucynacji okazał się rozproszony i redundantny - rozprowadzony w setkami neuronów - co oznacza, że nie ma pojedynczych neuronów, których sterowanie mogłoby rozwiązać problem.

Wynki sugerują fundamentalny wyzwanie w mitygacji hallucynacji medycznych - problem nie sprowadza się do znalezienia odpowiednich neuronów do modyfikacji. Może to wymagać głębszych zmian w architekturze treningu modeli lub zdecydowanie innych podejść niz sterowanie na poziomie neuronów. Dla wdrażania medycznych systemów AI to oznacza, że detektory hallucynacji mogą być użyteczne, ale samo wykrycie błędu nie wystarczy do jego automatycznej korekcji bez dodatkowych mechanizmów.