AgentFloor: Jak wysoko małe modele mogą wspinać się na drabinie narzędziowej?

Badacze pokazują, że małe otwarte modele mogą radzić sobie z narzędziami znacznie lepiej niż dotychczas sądzono. AgentFloor to nowa platforma benchmarkowa, która sprawdza, jak wysoko wspinają się lżejsze modele na drabinie złożoności - od prostych zapytań przez zaawansowane sekwencje działań aż po zadania wymagające wieloetapowego planowania i użycia wielu narzędzi. Projekt bada rzeczywistą przepaść między małymi modelami open-weight a gigantycznymi proprietary systemami jak GPT-4 czy Claude, ale skupia się głównie na praktycznej granicy, gdzie zdolności się kończą. To badanie ma konkretne znaczenie dla branży, bo miliardy urządzeń na świecie dysponuje ograniczonymi zasobami - od telefonów przez routery po przemysłowe controlers - i każdy procent wydajności małych modeli liczy się w realnym zastosowaniu.

Hierarchizacja testów w AgentFloor pozwala zobaczyć, gdzie dokładnie małe modele się łamią. Mogą one wykonywać proste call-owanie funkcji i pobieranie danych, ale czy radzą sobie z sekwencjami decyzji wymagającymi logiki? Czy potrafią pracować z wieloma narzędziami jednocześnie? Wyniki tej oceny mogą zmienić sposób, w jaki dekydujemy o wdrażaniu AI agentów w produkcji. Jeśli okaże się, że model o 7 miliardach parametrów potrafi obsługiwać 90 procent rzeczywistych scenariuszy, będzie to przełomowe dla oszczędności mocy obliczeniowej i kosztów infrastruktury.

Znaczenie AgentFloor sięga poza akademię - firmy pracujące nad lokalnymi modelami AI i edge computing czekały właśnie na takie narzędzie oceny. Znając dokładnie, do jakich zadań można powierzyć małe modele, mogą budować hybrydowe systemy, gdzie proste operacje odbywają się lokalnie, a tylko naprawdę złożone przypadki trafiają do chmury. To może otworzyć drzwi dla całego ekosystemu praktycznych AI agentów, które działają tam, gdzie do tej pory była możliwa tylko cienka inteligencja.