Zespół badaczy zaproponował ToolSense, diagnostyczne narzędzie do audytu wiedzy o narzędziach w dużych modelach językowych. Framework automatycznie generuje trzy typy testów dla dowolnego katalogu narzędzi: benchmark realistycznego wyszukiwania z zapytaniami o różnych poziomach szczegółowości, test wielokrotnego wyboru oraz benchmark pytań otwartych. Podejście jest ważne, bo istniejące testy takie jak ToolBench wykorzystują bardzo szczegółowe i kompletne opisy zapytań, co nie odzwierciedla rzeczywisty sposób użytkowania modeli.

Wyniki eksperymentów na katalogu ~47 tys. narzędzi są zatrważające dla branży. Modele, które doskonale radziły sobie na standardowych benchmarkach, ulegały upadkowi o 50-64 punktów procentowych na bardziej realistycznych pytaniach. Niektóre konfiguracje spadały nawet poniżej wydajności tradycyjnych metod opartych na embeddingach. Co więcej, mimo imponujących wyników w retrieval, niektóre modele osiągały wyniki ledwie lepsze niż losowe w testach faktograficznych, wskazując na to, że nie rzeczywiście rozumieją narzędzia, które mają wybierać.

Ta luka między wydajnością a rzeczywistym zrozumieniem ma poważne konsekwencje dla wdrażania agenów opartych na LLM. Modele mogą wydawać się kompetentne w laboratoryjnych warunkach, ale zawodzą w praktyce, gdy spotykają niejasne lub skrótowe zapytania użytkowników. ToolSense, dostępny jako open-source, daje badaczom narzędzie do bardziej wiarygodnej oceny gotowości systemów przed produkcyjnym wdrożeniem.