Weryfikacja anomalii współbieżności w wieloagentowych systemach LLM

Naukowcy z arXiv opublikowali formalną charakterystykę anomalii współbieżności w systemach LLM, gdzie wiele agentów współdzieli stan przez magazyny pamięci, indeksy wektorowe i rejestry narzędzi. Pracują oni w modelu długotrwałych operacji read-generate-write pod semantyką deterministyczną, którą egzekucyjne silniki egzekucji wymuszają przez deterministyczne odtwarzanie.

Badacze zidentyfikowali cztery główne anomalie: stale-generation (obsługiwanie nieaktualnych danych generacyjnych), phantom-tool (pojawianie się narzędzi, które powinny być niedostępne), causal-cascade (propagacja przyczynowa błędów) i tool-effect reordering (zmiana kolejności efektów narzędzi). Te anomalie są strukturalnymi odpowiednikami klasycznych problemów izolacji w bazach danych, takich jak dirty read czy phantom read. Zespół sformalizował je w TLA+ i opracował hierarchię spójności L0–L4, dostarczając pierwszą maszynowo-weryfikowalną charakterystykę takich systemów.

Weryfikacja została przeprowadzona za pomocą narzędzia Verus na 274 obligacjach bez założeń ani przyznań (trust base ograniczony do dwóch aksjomatów strukturalnych i korespondencji mutex). Trzy opracowane runtimes w Rust zostały wdrożone i zweryfikowane — pierwsze dwa realizują poziomy L0–L1 z użyciem pessimistic locking oraz snapshot isolation. Wyższe poziomy L2–L4 wykorzystują niezależne od wykonania metody zapobiegania, unikając anomalii we wszystkich 120 testowanych sesjach na trzech rodzinach modeli. Wyniki pokazują, że zaproponowane podejście odkrywa rzeczywiste problemy, na przykład reprodukując cichą utratę aktualizacji w systemach produkcyjnych.