Zespół badaczy zaproponował nową metodę diagnostyki i naprawy zdolności dużych modeli językowych, która automatycznie łączy wyniki testów benchmarkowych z precyzyjnymi zmianami w danych treningowych. Problem leży w tym, że zdolności modelu nigdy nie są bezpośrednio obserwowalne - dane je kształtują przed trenowaniem, a ewaluacja je ujawnia dopiero retrospektywnie, zamieniając setki próbek w jeden hałaśliwy wynik. Inżynierowie tradycyjnie pracują wstecz: widząc spadek wydajności, muszą intuicyjnie zgadywać, co w danych trzeba zmienić.
Rozwiązaniem jest koncepcja "capability slice" - grupy próbek ewaluacyjnych związanych tym samym warunkiem tła, typem zadania, operacją rozwiązania i ograniczeniami wyjścia. Jest to wystarczająco precyzyjne, by wskazać konkretną słabość, ale stabilne enough by przetrwać agregację, w przeciwieństwie do samej nazwy benchmarku czy pojedynczej próbki. Wokół tego pojęcia badacze zbudowali taksonomię ewaluacyjną, taksonomię danych spoza instrukcji i reguły mapowania, tworząc zamkniętą pętlę zamykającą przepaść między językami benchmarków a opisami źródeł danych.
Testowanie na dwóch przypadkach studiów wykazało praktyczną wartość podejścia. W pierwszym przypadku metoda wykazała, że kontynuowanie pre-trainingu obniża wynik BBH o 46,82 procent, ale diagnostyka ujawniła, że przyczyną nie jest osłabienie rozumowania, lecz Problem z maskowaną stratą tokena EOS. Po jego naprawie wynik BBH wrócił do 66,44, przekraczając oryginalny checkpoint, bez potrzeby jakichkolwiek innych zmian w modelu.