Mistral OCR 4 - strukturyzacja dokumentów z bounding boxami dla RAG i wyszukiwarek

Mistral AI wypuścił Mistral OCR 4, model do rozpoznawania i strukturyzacji dokumentów, który zmienia podejście do ekstrakcji tekstu z fizycznych i cyfrowych dokumentów. W przeciwieństwie do poprzednich wersji fokusujących się na konwersji stron do czystego tekstu, OCR 4 zwraca w pełni strukturalną reprezentację dokumentu z bounding boxami dla każdego elementu, typowaniem bloków tekstu (tytuły, tabele, równania, podpisy) oraz wynikami ufności generowanymi dla każdej strony i każdego słowa.

Model obsługuje aż 170 języków rozłożonych na 10 grup językowych, z widocznymi ulepszeniami szczególnie dla języków rzadkich i zasobów niskonormatywnych. Niezależni ewaluatorzy wybrali OCR 4 nad wszystkie testowane systemy konkurencji, osiągając średnią 72 procent wygranych porównań. Model może działać w pełni self-hosted w jednym kontenerze, co jest istotne dla organizacji wymagających pełnej kontroli nad danymi wrażliwymi.

Mistral OCR 4 pełni kluczową rolę w pipeline'ach enterprise search, RAG (retrieval-augmented generation) i domenowo-specjalistycznych systemach retrieval. Dodatkowy kontekst dotyczący lokalizacji elementów, ich roli semantycznej i poziomu pewności modelu pozwala systemom downstream nie tylko wiedzieć co mówi dokument, ale także gdzie każdy element się znajduje - informacja niezbędna do generowania cytowalnych, wiarygodnych odpowiedzi. Wycena wynosi 4 dolary za 1000 stron, a za pomocą Batch-API można obniżyć koszt do 2 dolarów. Jeden endpoint obsługuje zarówno surową ekstrakcję jak i schemat-driven Document AI output.