Metric Match: Wydajna metoda wyboru próbek do oceny niezawodności sędziów LLM

Coraz częściej modele LLM są wykorzystywane jako "sędziowie" oceniające jakość tekstu generowanego przez inne systemy AI, zamiast angażować drogich ekspertów-ludzi do każdej oceny. Problem polega na tym, że zanim będziemy pewni, że taki LLM judge rzeczywiście się zgadza z człowiekiem, musimy już zbierać wiele drogich adnotacji do weryfikacji. Naukowcy z arXiv opracowali na to rozwiązanie: metodę Metric Match.

Metoda działa na zasadzie inteligentnego wyboru, które próbki warto dać do oceny człowiekowi. Zamiast losowo wybierać dane, Metric Match analizuje już dostępne syntetyczne oceny (od LLM judge'a) i wybiera takie próbki, które najlepiej odzwierciedlają statystyczne właściwości całego zbioru danych. To pozwala na dokładne oszacowanie korelacji między oceną LLM a oceną człowieka, używając znacznie mniej adnotacji.

W praktyce metoda zmniejszyła średni błąd szacowania o 18,7% względem losowego wyboru, a jednocześnie obniżyła koszty adnotacji o 32,5%. W konkretnym przykładzie z ochroną zdrowia, gdzie trzeba było oceniać jakość raportów medycznych, zastosowanie Metric Match zaoszczędziło ponad tysiąc dolarów w porównaniu do tradycyjnego podejścia. Naukowcy udostępnili kod i gotowy pakiet do instalacji, co ułatwia praktyczne wdrożenie tej metody w rzeczywistych projektach.