Naukowcy z arXiv opracowali nowy benchmark do oceny, jak systemy automatyczne radzą sobie z detekcją zdarzeń w tekstach bengalskich zawierających błędy i szum. Zestaw testowy zawiera 9979 anotowanych zdań obejmujących 40 podtypów zdarzeń, podzielonych na trzy kategorie: czysty tekst wiadomości, transkrypty z automatycznego rozpoznawania mowy (ASR) oraz tekst z błędami ortograficznymi. To podejście dobrze odzwierciedla realne warunki, w których pracują takie systemy, a nie tylko idealizowane dane treningowe.
Badanie ujawniło fundamentalną różnicę między dwiema architekturami modeli. Encodery jak BanglaBERT i XLM-R wypadają lepiej na czystych danych, ale ich wydajność dramatycznie spada, gdy pojawia się szum - szczególnie gdy słowa signalizujące zdarzenia zawierają błędy. Z kolei modele decoder-only takie jak Llama 3 i Gemma 3 zachowują się znacznie stabilniej w warunkach szumowych. Instrukcja zabudowana w procesie fine-tuningu poprawiała wydajność na zaszumowanych danych, ale niejednakowo. Trenowanie modeli na mieszaninie czystych i zaburzonych danych działało jak regularyzacja, szczególnie pomagając architekturom opartym na encoderach zmniejszać niezawodność. Skalowanie parametrów konsekwentnie wzmacniało odporność modeli decoder-only.
To odkrycie ma znaczenie dla rozwoju systemów NLP dla języków o mniejszych zasobach, takich jak bengalski. Większość badań skupia się na idealnych danych, ale w praktyce systemy trafiają na tekst pełen błędów, noisy transkrypcje lub niestandaryzowaną ortografię. Wyniki sugerują, że przy wyborze modelu do produkcji warto brać pod uwagę nie tylko dokładność na testach, ale i stabilność w warunkach rzeczywistego szumu. Dla języków słabo zasobnych, gdzie ilość danych treningowych jest ograniczona, to może być kluczowy czynnik decyzyjny.