Adaptacja ModernBERT do domeny prawa - pre-training na orzeczeniach sądów USA

Naukowcy z arXiv przeprowadzili eksperyment polegający na dalszym pre-trainingowym ModernBERT na zbiorze wszystkich orzeczeń sądów USA, wykorzystując cel masked language modeling. Wyniki pokazały, że pomimo iż ModernBERT był już wstępnie trenowany na około 500 razy większym zbiorze danych niż oryginalny BERT, model nadal benefituje znacząco z dodatkowego pre-trainingu dostosowanego do domeny prawnej.

Zyski wydajności były porównywalne z tymi raportowanymi w wcześniejszych pracach nad adaptacją domeny dla modeli BERT-like. Interesujące jest jednak, że pre-training od zera nie dorównywał wydajności dalszemu pre-trainingowi istniejącego checkpointa ModernBERT. To sugeruje, że transfer learning ze zmodernizowanych podstaw jest bardziej efektywny niż szkolenie ex nihilo.

Wynikowe modele mogą przetwarzać sekwencje o długości do 8192 tokenów, co otwiera możliwości praktycznego zastosowania w analizie dokumentów prawnych. Mogą być używane do obliczania znaczących embeddings fragmentów tekstów prawnych lub do szybkiego rerankeowania setek dokumentów dla danego zapytania wyszukiwania. Zespół udostępnił wszystkie checkpointy modeli publicznie, co powinno przyspieszyć adopcję tych narzędzi w aplikacjach prawa.