Recenzje naukowe wspierane przez LLM: metody, benchmarki i wyzwania niezawodności

Szybki wzrost liczby przesyłanych prac naukowych doprowadził tradycyjną recenzję do granic jej skalowalności, co skłania naukowców do eksploracji użycia dużych modeli języka jako zautomatyzowanych asystentów oceny. Według przeglądu opublikowanego na arXiv, choć ostatnie badania pokazują, że LLM potrafią generować płynne krytyki i przybliżać oceny recenzentów, ich niezawodność, odporność i bezpieczeństwo jako systemy wspomagające decyzje pozostają niedostatecznie zbadane.

Badacze przeprowadzili analizę systemową dwóch kluczowych funkcji: generowania szczegółowych opinii oraz przewidywania ocen. Opracowali strukturalną taksonomię podejść modelowania, obejmującą metody oparte na promptach, podejścia nadzorowane, systemy wzbogacone pobieraniem informacji oraz metody zoptymalizowane do wyrównania wartości. Jednocześnie zidentyfikowali poważne zagrożenia bezpieczeństwa, takie jak ataki prompt injection, zatruwanie danych treningowych, luki w systemach pobierania informacji oraz manipulacja systemami nagród - wszystko to potencjalnie narażając zautomatyzowane potoki recenzji na celową manipulację.

Przegląd wskazuje na fundamentalne ograniczenia obecnych praktyk ewaluacji, w tym uprzedzenia skoncentrowane w określonych domenach naukowych i niezdolność do prawidłowego modelowania subiektywnych rozbieżności między recenzentami. Autorzy rekomendują przeformułowanie zautomatyzowanej recenzji jako problemu decyzyjnego o wysokich stawkach z wieloma celami do osiągnięcia, tworząc mapę drogową dla opracowania bardziej odpornych, przejrzystych i godnych zaufania systemów wspierających proces publikowania nauki.