Naukowcy z arXiv opublikowali pracę na temat ContextForge, systemu do "recyklingu kontekstu" rozwiązującego fundamentalny problem w długich konwersacjach z modelami językowymi. LLM-y działają dobrze w krótkich rozmowach, ale tracą wydajność w dłuższych dialogach - albo dlatego że brakuje im okna kontekstu, albo dlatego że muszą obsługiwać coraz więcej tokenów, co wpływa na prędkość i koszt.
ContextForge zmienia podejście - zamiast powtarzać cały poprzedni kontekst w każdej turze rozmowy, system inteligentnie przechowuje ważne informacje w zewnętrznej pamięci i generuje strukturalne zapytania. Na potrzeby tej metody nie trzeba relayować wszystkiego od nowa. Naukowcy przetestowali system na 15-turowych rozmowach zawierających złożone scenariusze z opieki zdrowotnej, ze skomplikowanymi referencjami do wcześniejszych części dialogu i zmianami tematu. W porównaniu z baseline'owym agentem używającym tych samych modeli, ContextForge osiągnął lepszą spójność odpowiedzi i wyraźnie mniej tokenów bez utraty dokładności.
To ma znaczenie dla praktycznych aplikacji - oznacza, że długie rozmowy z LLM-ami mogą być znacznie wydajniejsze bez konieczności kupowania droższych modeli z większymi oknami kontekstu czy przeprowadzania kosztownego retrainingu. System jest dostępny otwarcie na GitHubie, co powinno przyspieszyć eksperymentowanie w przemyśle.