Badacze prezentują AgentFloor, platformę do testowania zdolności małych modeli open-weight do używania narzędzi i wykonywania złożonych zadań. Projekt bada, jak daleko mogą sięgnąć lżejsze modele w porównaniu z dużymi proprietary systemami, oceniając ich umiejętności w hierarchii coraz bardziej zaawansowanych scenariuszy tool use. Wyniki mogą znacząco wpłynąć na praktyczne wdrażanie AI agentów na urządzeniach z ograniczonymi zasobami.