Mniej kontekstu, lepsi agenci: efektywne inżyniering kontekstu dla LLM z długohoryzontem

Zespół badawczy Microsoftu zidentyfikował i rozwiązał kluczowy problem w systemach opartych na agenach LLM: zbyt obszerny kontekst z odpowiedzi narzędzi enterprise prowadzi do przepełnienia tokenów, błędów i wysokich kosztów obliczeniowych. W praktycznych eksperymentach z automatycznym rozliczaniem wydatków hotelowych w Microsoft Dynamics 365 Finance pokazali, że strategiczne zmniejszanie kontekstu daje paradoksalnie lepsze wyniki.

Badacze testowali cztery podejścia na zestawie 50 zadań: całkowity brak historii (8% dokładności), pełna historia konwersacji (71% przy 1,48 mln tokenów), ograniczenie do ostatnich 5 wywołań narzędzi (79% przy 535 tys. tokenów) oraz to ostatnie uzupełnione automatycznym streszczaniem (91,6% przy 553 tys. tokenów). Najlepsze rozwiązanie używało prawie dwóch trzecin mniej tokenów niż wariant z pełnym kontekstem, co znacznie obniża koszty inferencji.

Wyniki sugerują, że dla agentów pracujących z systemami biznesowymi efektywne filtrowanie informacji jest kluczowe. Zamiast przechowywać wszystko, lepiej usuwać stare dane i automatycznie streszczać krytyczne informacje. Podejście zostało zwalidowane na modelach GPT oraz Claude, co wskazuje na jego uniwersalność. To odkrycie ma potencjał zmienić sposób, w jaki firmy projektują autonomiczne systemy – mniej kontekstu, mniejsza latencja, niższe koszty i niezgodnie z intuicją, lepsza wydajność.