W ramach kompleksowej analizy badacze ocenili wpływ wyboru modelu klasyfikacyjnego na zdolność frameworku InferBERT do rozróżniania rzeczywistych przyczyn działań niepożądanych leków od pozornych korelacji. Do porównania wykorzystali cztery modele: XGBoost (baseline), ALBERT (pierwotny InferBERT), BioBERT (transformer biomedyczny) oraz Med-LLaMA (medyczny model dużej skali), testując je na dwóch benchmarkach dotyczących przypadków ostrych uszkodzeń wątroby indukowanych analgetykami oraz śmiertelności związanej z tramadolem.

Wyniki eksperymentów przeprowadzonych z walidacją krzyżową 5-fold powtórzoną 20 razy wyraźnie wskazywały na dominację BioBERTa, który uzyskał najwyższą dokładność na obu zbiorach danych. Zaskakujące było to, że Med-LLaMA, mimo swojego większego rozmiaru i zastosowania parameter-efficient fine-tuningu, osiągnął gorsze rezultaty. Kluczowy wniosek brzmi: specjalistyczne pre-trenowanie na danych medycznych okazało się zdecydowanie ważniejsze niż rozmiar modelu. BioBERT wykazał również najsilniejszą zgodność z tradycyjnymi sygnałami farmakowigilancji (PRR, ROR, EBGM).

Badanie ma istotne implikacje dla praktyki medycznej. Pokazuje, że budowanie lepszych systemów wczesnego ostrzegania przed działaniami niepożądanymi nie wymaga automatycznie przechodzenia na coraz większe modele, lecz wymaga uważnego dostosowania architektury i danych treningowych do specyfiki domeny. Kalibracja modeli poprawiała Expected Calibration Error, choć miała mieszane efekty na dokładność i samo odkrywanie przyczynowości, sugerując, że jest to komplementarna, ale nie kluczowa optymalizacja.