Datalab zaprezentował lift, otwarty model wizji o rozmiarze 9 miliardów parametrów, który wyodrębnia strukturalne dane JSON z dokumentów PDF i obrazów na podstawie zdefiniowanych schematów. Model stanowi praktyczne rozwiązanie dla automatyzacji przetwarzania dokumentów wymagające zwracania danych w ściśle określonym formacie.

Lift wyróżnia się dwoma kluczowymi cechami. Po pierwsze, wykorzystuje dekodowanie ograniczone schematem, które gwarantuje że wyjście zawsze odpowiada zadanej strukturze JSON - eliminuje to błędy formatu i zmienione klucze. Po drugie, model został wytrenowany do zwracania wartości null dla pól nieobecnych w dokumencie zamiast hallucynowania danych, co jest istotnym problemem w standardowych modelach wizji.

Na benchmarku złożonym z 225 dokumentów lift uzyskał dokładność 90,2 procent na poziomie pola, co demonstruje praktyczną użyteczność modelu. Jako open-weights rozwiązanie udostępniane przez Datalab, lift może być dostosowywany i wdrażany lokalnie, oferując alternatywę dla komercyjnych API przetwarzania dokumentów.