Ko-WideSearch: koreański benchmark do kompleksowego wyliczania zbiorów przez agentów WWW

Ko-WideSearch to nowy benchmark oceniający umiejętność agentów AI w wyszukiwaniu na skalę szerokości (breadth-search), czyli kompleksowym wymienianiu wszystkich elementów danego zbioru i ich atrybutów. Benchmark obejmuje 228 tabel na 190 jednostkach w 16 kategoriach, od sezonów telewizyjnych po dynastie historyczne i regiony administracyjne. Do jego budowy wykorzystano zautomatyzowany pipeline syntezowania i weryfikacji, co rozwiązuje kluczowy problem: certyfikowanie, że zbiór jest kompletny i każda komórka poprawna, jest znacznie droższe niż sprawdzenie pojedynczej odpowiedzi. Benchmark zawiera trzy poziomy trudności kontrolowane niezależnie przez szerokość tabeli i złożoność klucza służącego do identyfikacji wierszy.

Testowanie dwudziestu agentów WWW ujawniło consistent pattern niepowodzeń. Chociaż modele osiągają Item-F1 92,8 procent w odkrywaniu elementów zbioru, Row-F1 spada do 53,7 procent - co oznacza, że brakuje im dokładności w wypełnianiu atrybutów wierszy. Dokładność systematycznie spada wraz ze zwiększaniem parametrów trudności, a zwiększenie budżetu na wyszukiwanie nie zamyka luki wydajności. Analiza na poziomie komórek wskazuje, że głównym problemem nie jest sama navigacja, ale znalezienie właściwych wartości dla każdego atrybutu.

To badanie zaznacza istotną lukę w ocenie agentów AI: większość benchmarków skupia się na głębi - umieszczeniu jednej odpowiedzi za łańcuchem ograniczeń - a ignoruje szerokość, czyli zdolność do wyczerpującego wymienienia zbiorów. Problem jest szczególnie niedoreprezentowany poza językami anglojęzycznymi, co Ko-WideSearch częściowo adresuje przez fokus na język koreański.