MemTrace: Jak ocenić rzeczywistą jakość pamięci długoterminowej w modelach AI

Agenty LLM coraz częściej utrzymują pamięć faktów o użytkownikach przez wiele sesji, ale jej ocena zwykle sprowadza się do liczenia poprawnych odpowiedzi bez zrozumienia, jak poszczególne fakty rzeczywiście funkcjonują w zmiennych warunkach. MemTrace zmienia podejście, traktując jednostką pomiaru nie pytanie, ale pojedynczy typowany fakt o użytkowniku—na przykład "imię użytkownika" czy "przychód z poprzedniego roku".

Benchmark bada każdy fakt wzdłuż trzech kontrolowanych wymiarów: wieku pamięci (jak wiele sesji temu pojawiła się informacja), typu pytania (stan bieżący, stan historyczny, trajektoria zmian) oraz warunku dostępności dowodów (dowód dostępny, brakujący lub sprzeczny z fałszywą przesłanką). Ta granularna struktura pozwala zobaczyć, że systemy mogą rozumieć zmianę stanu faktу, ale poniewać jego bieżącą wartość, albo poprawnie unikać odpowiedzi gdy brakuje danych, ale zawodzić wobec sprzecznych informacji.

Wyniki z 13 konfiguracji pamięci (testowanych w czterech paradygmatach) są zaskakujące: główna przeszkoda to nie magazynowanie czy wyszukiwanie informacji, ale umiejętność ich wykorzystania. Gdy system się myli, dowody były dostępne 10 razy częściej niż przypadkami całkowicie zagubione. To sugeruje, że doskonalenie pamięci długoterminowej wymaga lepszego rozumienia treści, które model ma pod ręką, a nie tylko rozbudowy pamięci czy algorytmów retrieval.