Naukowcy z arXiv przeprowadzili kompleksowy audyt ośmiu automatycznych scorerów oceniających atrybucję w systemach RAG - w tym leksykalne metryki, osadzania (embedding), BERTScore oraz modele trenowane na entailment i grounding, takie jak MiniCheck czy NLI z FEVER. Badanie wykazało, że żaden z testowanych scorerów nie pozostaje stabilny między różnymi zbiorami danych w ramach tego samego zadania oceny.
Najbardziej uderzające rezultaty dotyczą ewaluacji atrybucji wygenerowanych odpowiedzi, gdzie badacze testowali metryki na czterech zbiorach danych AttributionBench (łącznie 1610 przykładów) oraz niezależnym HAGRID (2150 przykładów). Ranking metryk między AttributedQA i LFQA się całkowicie odwrócił (Kendall tau = -0.64), a konkretnie: off-the-shelf NLI scorer, który był najlepszy na krótkich pytaniach z AUROC 0.90, załamał się do poziomu przypadkowego 0.53 na długoformowych odpowiedziach, gdzie wygrał BERTScore z wynikiem 0.91. To nie było artefaktem długości czy truncacji - fundamentalny problem polegał na braku transferability między różnymi typami danych.
Wnioski mają praktyczne konsekwencje dla praktyki. Naiwna reguła wyboru "najlepszy średnio" dla ewaluatora zawodzi przy walidacji bez jednego zbioru danych (średni żal hold-out 0.172 AUROC, gorszy niż ustalenie jednej metryki). Oznacza to, że każdy projekt musi walidować wybór metryki na swoim docelowym zbiorze danych, zamiast uczyć się od innych. Badania sugerują, że judges bazowane na promptach z LLM potrafią uniknąć załamań na poziomie przypadkowego, którym podlegają automatyczne scrorery.