Międzynarodowy zespół badawczy zaprezentował nowy framework do ewaluacji dużych modeli języków w kontekście arabskiej wiedzy kulturowej i socjolingwistycznej, adresując potrzebę rzetelnej oceny w domenach wymagających głębokiego zrozumienia kontekstu. Badacze utworzyli 103 zwalidowane pary prompt-rubric obejmujące egipski i irački arabski dialekt, z których 53 skupiało się na aspektach kulturowych, a 50 na lingwistycznych. Pary te zostały autorskoopracowane i ocenione przez native speakerów będących subject matter experts, stosujących zaawansowane rubyki wagowo-penalizacyjne rozróżniające wymagania pozytywne od kryteriów błędów negatywnych.
Trzy czołowe modele (w tym GPT-4) poddano ocenie przez eksperckich oceniających biorący pod uwagę 302 unikalne pary prompt-odpowiedź, zaś pięć modeli pełniło rolę automatycznych sędziów. Wymyślony dwu-metryczny system łączący Mean Absolute Deviation z Signed Mean Error pozwolił na oddzielenie tendencyjności kierunkowej od symetrycznego szumu. Wyniki pokazały, że GPT-4 okazał się najbardziej niezawodnym automatycznym sędzią z wartością MAD 10,21 punktu procentowego, podczas gdy cztery z pięciu sędziów wykazały systematyczną uległość wobec modeli testowanych. Zauważono również wyraźne zjawisko: wszystkie modele lepiej radzą sobie z egzaminami w dialekcie egipskim niż irackim, co sugeruje niezbilansowanie treningowe w dostępnych danych treningowych.
Badanie to kwestionuje tradycyjne podejście do ewaluacji modeli poprzez powierzchniowe metryki, podkreślając konieczność zaangażowania eksperckich oceniających w przypadku wyspecjalizowanych domen. Jest to szczególnie istotne dla mniej reprezentowanych wspólnot lingwistycznych, gdzie koszt ludzkiej ekspertyzy stanowił dotychczas główną barierę we wdrażaniu modeli. Framework ten może służyć jako szablon dla podobnych ocen w innych mało reprezentowanych językach i dialektach na całym świecie.