CaVe-VLM-CoT: Interpretowalna rama Vision-Language Model z chain-of-thought

CaVe-VLM-CoT to modułowy framework oparty na agentic-RAG (retrieval-augmented generation), który rozwiązuje problem halucynacji w modelach Vision-Language Models poprzez enforcement evidence-grounded reasoning. System składa się z pięciu etapów: Extractor, Retriever, Solver, Citation Injector i Verifier, tworzących zamkniętą pętlę, w której wykryte niezaugruntowane twierdzenia są kierowane z powrotem do Extractora w celu ukierunkowanego ponownego wyszukiwania.

Problema, którą rozwiązuje ten framework, to fakt, że istniejące metody chain-of-thought i retrieval-augmented nie egzekwują cytowania na poziomie poszczególnych kroków ani nie kierują błędów weryfikacji z powrotem do wyszukiwania w celu korekty. CaVe-VLM-CoT wprowadza strukturalny feedback loop, który świadomi dokładność każdego fragmentu odpowiedzi i wymaga go ugruntowania w rzeczywistych dowodach wizualnych lub tekstowych.

Do oceny całego systemu zespół opracował zestaw 23 komponentowych metryk obejmujących wszystkie etapy pipelineу, koronujące się złożoną metryką CaVeScore, która waży dokładność, precyzję cytowania, recall, atrybucję i ugruntowanie dowodów. Na benchmarku ScienceQA framework uzyskał 87,1% dokładności i 56,6% CaVeScore, a na MMMU (30 przedmiotów) 55,2% dokładności i 35,7% CaVeScore, bez żadnych modyfikacji architektury czy promptów wejściowych.