Baidu udostępnia Unlimited OCR - model 3B ze stałym KV cache dla długich dokumentów

Baidu opublikowało Unlimited OCR, model oparty na architekturze Mixture-of-Experts, który rozwiązuje fundamentalny problem OCR - rosnące zużycie pamięci przy przetwarzaniu długich dokumentów. Zamiast tradycyjnego decoder attention, model wykorzystuje Reference Sliding Window Attention (R-SWA), która utrzymuje rozmiar KV cache na stałym poziomie niezależnie od liczby wygenerowanych tokenów. Model ma 3 miliardy parametrów ogółem, ale podczas wnioskowania aktywuje tylko 500 milionów, co zmniejsza wymagania obliczeniowe.

Model opiera się na DeepSeek OCR i zachowuje jego DeepEncoder - silnik kompresji wizualnej, który łączy SAM-ViT pod window attention z CLIP-ViT pod global attention. Ta architektura osiąga 16-krotną kompresję tokenów - obraz PDF o wymiarach 1024x1024 pikseli sprowadza się do zaledwie 256 tokenów wizualnych. Fewer input tokens znacznie przyspiesza fazę prefill i zmniejsza całkowite obciążenie obliczeniowe systemu.

Ulimited OCR osiąga wynik 93,23 punktu na benchmarku OmniDocBench v1.5, przewyższając baseline DeepSeek OCR o 6,22 punktu. Model potrafi przetwarzać dziesiątki stron w jednym forward passu, zachowując maksymalny limit 32K tokenów. Dla praktycznych zastosowań dostępne są dwa tryby: Base mode dla dokumentów wielostronicowych przy rozdzielczości 1024x1024, oraz Gundam mode z dynamiczną rozdzielczością dla pojedynczych stron. To rozwiązanie otwiera nowe możliwości dla systemów dokumentacyjnych, które dotąd miały problemy z skalowaniem na dłuższe teksty.