Zespół badaczy wprowadził DeFAb — nowy benchmark oparty na formalnie ugruntowanych zadaniach defeasible abduction, czyli konstruowania hipotez, które wyjaśniają anomalie poprzez zmianę domyślnych założeń. Dataset zawiera ponad 372 tysiące instancji pochodzących z materializacji 33,75 miliona reguł logicznych z 18 różnych źródeł, w tym OpenCyc, YAGO, Wikidata, ConceptNet i UMLS. Każda wygenerowana hipoteza musi przejść formalne sprawdzenia poprawności derivacji, konserwatywności i minimalności — co oznacza, że benchmark mierzy dyscyplinę teoretyczną, a nie tylko płynność językową.
Wyniki są zaskakująco słabe dla współczesnych dużych modeli. Podczas gdy tradycyjny solver logiczny rozwiązuje każde zadanie w mniej niż 50 mikrosekund z 100% dokładnością, cztery testowane modele frontier osiągają zaledwie 7,8–23,5% dokładności na poziomie 2 przy ocenie odpornej na rendering (testowanie kilku wariantów powierzchniowych tekstu zadania). Najlepszy model jedynie przy idealnych warunkach sięga 65%. Badacze zaobserwowali też dużą wariancję w wynikach chain-of-thought (około 36 punktów procentowych), co sugeruje niestabilność rozumowania logicznego.
Benchmark ujawnia fundamentalne słabości w zdolności modeli AI do internalizacji defeasible reasoning — rodzaju wnioskowania wymagającego zmiany wcześniejszych przekonań w świetle nowych faktów. Luka między modelami a formalnym rozumowaniem logicznym sugeruje, że obecne duże modele mogą być bieglymi generatorami tekstu, ale nie pewnymi narzędziami do rygorystycznego teoretyzowania i rewizji teorii. Badacze dodatkowo wydali DeFAb-Hard — zestaw 235 szczególnie trudnych instancji — jako dodatkową ocenę dla najbardziej ambitnych podejść.