Większość danych w przedsiębiorstwach wciąż leży w plikach PDF, skanach i prezentacjach, niedostępna dla modeli językowych i agentów AI. Ekstrakcja open-source stała się standardowym sposobem na konwersję tych danych w strukturalny JSON na własnym sprzęcie, zamiast polegania na kosztownych API proprietary.
Pod hasłem ekstrakcji PDF do JSON kryją się dwa różne problemy. Pierwszy to ekstrakcja oparta na schemacie - definiujesz pola w JSON, a model wypełnia je wartościami z dokumentu. To podejście doskonale sprawdza się dla faktur, formularzy, umów i paragonów, gdzie pola znasz z góry. Drugi to parsowanie dokumentów, gdzie model rekonstruuje całą stronę, wykrywając układ, kolejność czytania, tabele, formuły i kod, a następnie eksportując JSON lub Markdown. To rozwiązanie przydaje się do przygotowania czystych korpusów danych dla systemów RAG i agentów AI.
Wybór między tymi kategoriami ma realne znaczenie dla kosztów i wydajności. Modele open-weights pozwalają uniknąć wydatków proprietary API, które mogą wynosić tysiące dolarów za milion stron, i eliminują konieczność wysyłania wrażliwych dokumentów poza własną infrastrukturę. W ekosystemie dostępne są już dedykowane modele, takie jak lift z Datalabu - 9-miliardowy model wizyjny stworzony przez zespół odpowiedzialny za narzędzia Marker i Surya. Właściwy wybór narzędzia dla konkretnego przypadku użycia może zaoszczędzić znaczną ilość czasu i zasobów.