Naukowcy zidentyfikowali fundamentalną słabość agentów LLM: niezdolność do prawidłowego zarządzania zmianami faktów w długich, wielosesyjnych interakcjach, gdzie użytkownik się przeprowadza, cena się zmienia lub plan się zmienia. Problem przejawia się konkretnie na benchmarku LongMemEval - gdy agent musi samodzielnie utrzymywać ograniczoną pamięć zamiast mieć dostęp do całego kontekstu, nawet najnowocześniejszy model gpt-5.4 spada z 92% do 77% dokładności. Ta różnica jest statystycznie istotna (p<0.005) i dotyczy modeli o różnych rozmiarach.

Zdumiewające jest, że problem nie wynika z niewystarczającej pojemności pamięci - zwiększenie dostępnej pamięci o 24x wraz z rozwojem rozmowy nie przyniosi poprawy (dokładność spadła z 68% do 28%, a przyznanie więcej pamięci nie pomogło). Wada skaluje się z długością konwersacji, a nie z kompresją danych, co oznacza, że wąskim gardłem jest utrzymanie pamięci, a nie rozumienie tekstu.

Odpowiedzią naukowców jest Supersede - otwarty environment reinforcement learningu oparty na stosie verifiers/prime-rl. System nagradza agentów za odpowiadanie z aktualnych wartości faktów i karze za używanie przestarzałych informacji. Wstępne testy pokazują, że luka jest trenowalną - fine-tuning metodą GRPO może poprawić zdolność modeli do zarządzania aktualizacjami pamięci w długotrwałych interakcjach.