Definicja dobrego wyjaśnienia i wyzwania w objaśnianiu wyników dużych modeli językowych

Pytanie o to, co stanowi dobre wyjaśnienie, toczy się w filozofii od lat, ale przybrało na znaczeniu w kontekście systemów AI. Dla firm i instytucji chcących wdrażać modele sztucznej inteligencji, zdolność do tłumaczenia decyzji modelu staje się kluczowa — zarówno dla akceptacji użytkowników, jak i wymogów regulacyjnych.

Naukowcy zaproponowali definicję bazującą na wyjaśnieniach kontrafaktycznych, czyli pokazaniu, co mogłoby się zmienić, aby uzyskać inny wynik. Jednak poszli dalej — argumentują, że prawdziwie dobre wyjaśnienie musi także uwzględniać to, co rozmówca już wie i w co wierzy. Innymi słowy, to samo wyjaśnienie może być doskonałe dla jednej osoby, a zupełnie bezużyteczne dla drugiej, w zależności od ich wcześniejszej wiedzy.

Problem pojawia się zwłaszcza z dużymi modelami językowymi. LLM-y działają w taki sposób, że przewidują kolejne słowa na podstawie miliardów wzorców w tekście treningowym. Wyjaśnienie, dlaczego model wybrał konkretne słowo lub fragmenty tekstu, jest niezwykle trudne — neuronowe sieć głębokie działają jak czarna skrzynka, a przyczynowe łańcuchy decyzji są fantazmatycznie złożone. To oznacza, że nawet gdy mamy dobrą teorię wyjaśnień, praktyczne zastosowanie jej do modeli takich jak ChatGPT czy Claude pozostaje otwartym wyzwaniem dla całej branży.