Zespół badaczy opracował SciDraw-Bench, pierwszy kompleksowy benchmark specjalnie zaprojektowany do oceny zdolności modeli generatywnych w tworzeniu naukowych figur i schematów. Narzędzie zawiera 32 strukturalne zadania obejmujące osiem typów figur - od mechanizmów biologicznych po schematy eksperymentalne - rozproszone w dziesięciu dyscyplinach naukowych. Każde zadanie łączy prompt w języku naturalnym ze sprawdzalną maszynowo specyfikacją wymaganych etykiet, relacji między komponentami, elementów strukturalnych i konwencji dyscyplinarnych.

Istniejące benchmarki oceniające generowanie obrazów, takie jak GenEval czy T2I-CompBench, skupiają się na naturalności fotografii, liczeniu obiektów czy fotorealizmie. Nie mierzą jednak cech decydujących o przydatności figur naukowych - czytelności etykiet tekstowych, wiernej reprezentacji encji i ich relacji, spójności struktury diagramu czy zgodności z konwencjami rysunkowym właściwymi dla danej dziedziny. To właśnie luka, którą wypełnia SciDraw-Bench.

Benchmark proponuje czterowymiarowy protokół oceny: Fidelity tekstową mierzoną OCR-em i wskaźnikiem błędów znaków, Poprawność Semantyczną ocenianą przez vision-language models względem specyfikacji, Jakość Strukturalną i Zgodność z Konwencjami. Wstępne wyniki pokazują różnice między systemami dedykowanymi, takimi jak SciDraw AI, a ogólnozadaniowymi modelami tekst-obraz, wskazując na znaczące wyzwania w generowaniu precyzyjnych materiałów naukowych przez modele general-purpose.