Badacze zaprezentowali LongDS-Bench, benchmark do oceny zdolności agentów AI do przeprowadzania długoterminowej analizy danych.研究 ujawnia, że obecne agenty mają poważne problemy z utrzymaniem kontekstu i logiki rozumowania w złożonych, wieloetapowych zadaniach analitycznych. Odkrycie podkreśla wciąż znaczące ograniczenia systemów agentic w praktycznych zastosowaniach biznesowych wymagających wielokrotnych kroków i długiej pamięci.