Poprawne kody z błędnych przyczyn - walidacja LLM jako narzędzi pomiaru konstruktów

Badacze zwracają uwagę na fundamentalny problem w walidacji dużych modeli językowych jako narzędzi badawczych. Kiedy LLM koduje konstrukt teoretyczny w tekście dokładnie tak samo jak człowiek-anotator, przyjmujemy to za dowód, że model jest niezawodnym kodera. Jednak niezawodność (agreement z człowiekiem) wcale nie gwarantuje, że model rzeczywiście rozumie teorię stojącą za kodowaniem.

Model może udzielić poprawnej odpowiedzi poprzez korelaty całkowicie obce teorii konstruktu - inaczej mówiąc, może trafiać w "złoty wynik" z kompletnie błędnych powodów. Obecnie brak metod, które mogłyby odróżnić autentyczny pomiar od takiego przypadkowego sukcesu. To stanowi poważny problem dla badaczy społecznych, którzy coraz chętniej używają LLM do kodowania złożonych konstruktów teoretycznych w danych tekstowych.

Proponowana metoda grain calibration zmienia podejście do problemu. Zamiast porównywać output modelu z oceną człowieka, rozkłada konstrukt na jego elementarne komponenty na poziomie klauzul. Każdy element testowany jest przeciwko tekście z ekstraktywnym dowodem - konkretnym fragmentem, który go wspiera. Finalna decyzja kodowania wynika z jawnie sformułowanej reguły opartej na teorii konstruktu, a nie z nieprzenikalnego wnętrza sieci neuronowej. To podejście ujawnia rzeczywisty proces rozumowania modelu: które komponenty determinowały ostateczny kod i - w przypadku błędu - czy brakło jakiegoś komponentu, czy też model pomylił konstrukt z innym, pokrewnym zagadnieniem.