Zespół badawczy opublikował Office Comprehension Bench - pierwszy publicznie dostępny benchmark oceniający modele AI w rozumieniu dokumentów Word, Excel i PowerPoint bezpośrednio w formatach .docx, .xlsx i .pptx. Do tej pory brakowało narzędzia do systematycznej oceny tych zdolności, mimo że przetwarzanie dokumentów biurowych to praktyczne zadanie dla systemów AI w przedsiębiorstwach.

Benchmark podzielony jest na dwie części. Pierwsza część File Fidelity Q&A testuje zdolność modeli do postrzegania strukturalnych i wizualnych elementów - tabel, wykresów, wbudowanych obrazów, formuł oraz elementów specyficznych dla aplikacji jak nagłówki, notatki prelegencie czy nazwane zakresy. Druga część Domain Q&A skupia się na zadaniach wymagających eksperckiego rozumowania opierającego się na rzeczywistych dokumentach z 12 branż zawodowych, gdzie pytania wymagają wieloetapowej analizy i syntezy informacji z wielu dokumentów jednocześnie. Każdą odpowiedź referencyjną rozkładano na atomowe, binarne roszczenia, które zespół LLM-owych sędziów ocenia niezależnie.

Wyniki testów są zaskakujące dla entuzjastów AI - nawet najsilniejsze systemy dostępne na rynku osiągają jedynie około 59,3 procent w testach Domain Q&A. Co więcej, zwiększanie głębokości myślenia w ramach tej samej klasy modelu nie przynosi znaczących popraw, a przejście na droższą, bardziej zaawansowaną wersję daje jedynie umiarkowane wzrosty wydajności. Zespół publikuje dataset, narzędzia ewaluacyjne, prompty dla sędziów oraz publiczny ranking, zapraszając badaczy do dalszych prac nad tym ważnym problemem.