Lift to nowe narzędzie umożliwiające konwersję badawczych PDF-ów na strukturalne dane w formacie JSON z kontrolowaną oceną na poziomie pól zgodnie z definiowanymi schematami. Workflow został zaprojektowany z myślą o rzeczywistych zastosowaniach, gdzie konieczna jest nie tylko ekstraktowanie informacji, ale również ich walidacja względem spodziewanej struktury danych.

Sistem przystosowano do pracy nawet na skromnym sprzęcie - GPU z 16 GB pamięci RAM. Osiągnięto to poprzez zastosowanie kwantyzacji 4-bit NF4, która zmniejsza wymagania pamięciowe bez znacznej utraty jakości. Ekstrakcja danych opiera się na analizie layoutu dokumentu, a nie tylko surowego tekstu, co pozwala na lepsze rozumienie kontekstu i struktur wizualnych. Lift potrafi odzyskiwać z dokumentów zaawansowane pola takie jak parametry eksperymentów, linki do kodów źródłowych czy stwierdzenia dotyczące stanu wiedzy w danej dziedzinie.

Testowanie skuteczności systemu przeprowadzono na realistycznym zestawie sintetycznych raportów badawczych zawierających celowo umieszczone zmyłki i niejednoznaczności - takie jak nieясność między metrykami walidacyjnymi a testowymi, porównania między baseline-ami a proponowanymi modelami czy brakujące linki do repozytoriów. Taki podход umożliwia rzeczywistą ocenę jakości ekstrakcji w warunkach zbliżonych do produkcyjnych, gdzie dokumenty zawsze zawierają elementy utrudniające automatyczną obróbkę.