Automatyczne podejście do optymalizacji opisów umiejętności osiąga wydajność równoważną ręcznym metodom, zmniejszając drastycznie wysiłek inżynierski. System wdrożony na produkcyjnym agencie grupy czatu obsługującym 9 umiejętności uzyskał wynik 79,2% F1z użyciem automatycznego pipeline'u, nieznacznie poniżej 79,4% F1 uzyskanego dla ręcznych opisów. Różnica średnia wyniosła zaledwie -0,20% na umiejętność, mieści się w szumie wielokrotnego seedowania (0,78%), co potwierdza praktyczną równoważność obu podejść.
Głównym problemem, który rozwiązuje ta metoda, jest skill collision - zjawisko, gdzie system błędnie routuje zapytania użytkowników do złych umiejętności z powodu nakładających się opisów. W miarę jak agenty skalują się do dziesiątek funkcji, ręczna konfiguracja opisów staje się wąskim gardłem. Badania pokazują, że większość ulepszenia (zdecydowana większość dostępnego wzrostu wydajności) pochodzi z pojedynczego przepisania opisu za pomocą LLM przy użyciu dostępnych przypadków fałszywych pozytywów i fałszywych negatywów. Pozostałe komponenty pipeline'u testowane w badaniu - budżet iteracji, złożone sygnały zwrotne, edycja par wywołujących zamieszanie, rozmiar zbioru treningowego - każdy wpływał na końcowy wynik mniej niż 0,5% F1.
Empiryczne walidacje przeprowadzono zarówno na systemie produkcyjnym, jak i na ToolBench zawierającym 16 tysięcy narzędzi. Wyniki sugerują, że złożone, wieloetapowe podejścia do optymalizacji mogą być zbyteczne w praktyce. Jednak metoda ma ograniczenia - nie może rozwiązać przypadków, gdzie dwie umiejętności mają rzeczywiście nakładające się zakresy funkcjonalności, co wymaga rozwiązań na wyższym poziomie abstrakcji.