Dr-DCI: Skalowalne bezpośrednie interakcje z korpusem tekstowym poprzez dynamiczną ekspansję workspa

Agenty AI pracujące z dużymi zbiorami tekstów tradycyjnie polegają na retrieverach takich jak BM25 czy ColBERT, które zwracają ranking odpowiednich dokumentów. Problem polega na tym, że takie podejście nie pozwala agentom na elastyczną reorganizację materiału, porównywanie informacji między dokumentami czy weryfikację ograniczeń logicznych — mogą oni pracować tylko z tym, co retriever im pokaże.

Direct Corpus Interaction (DCI) próbuje rozwiązać ten problem, oferując agentom dostęp do operacji podobnych do poleceń terminalowych: mogą oni wyszukiwać, filtrować, porównywać i weryfikować zawartość całego korpusu. Jednak w praktyce pełnokorporusowe operacje stają się coraz bardziej nieefektywne wraz ze wzrostem ilości danych — system zwalnia i może być niestabilny.

Dr-DCI to odpowiedź na ten problem. Zamiast pozwalać agentowi operować na całym korpusie, system najpierw używa retrievera do znalezienia potencjalnie istotnych dokumentów, które są ściągane do lokalnego workspace'u. Agent następnie przeprowadza precyzyjne operacje DCI w obrębie tego mniejszego, dynamicznie rozszerzającego się workspace'u. Eksperymenty wykazały, że podejście to osiąga 71,2% dokładności na benchmarku Browsecomp-Plus, poprawiając wyniki w stosunku do czystego DCI o 8,3 punktu przy jednocześnie mniejszym zużyciu zasobów, szybszym czasie wykonania i niższych kosztach.