Naukowcy z arXiv opublikowali Indi-RomCoM - pierwszy kompleksowy benchmark do testowania modeli językowych na zromanizowanym kodzie mieszanym (RCM), gdzie użytkownicy łączą języki indyjskie z angielszczyną napisaną alfabetem łacińskim. To forma komunikacji dominująca w wielojęzycznych społecznościach, szczególnie w Indiach, ale dotychczas niemal nie była badana w kontekście LLM.
Benchmark obejmuje siedem zadań opartych na instrukcjach, cztery popularne języki indyjskie oraz trzy poziomy intensywności mieszania kodu. Naukowcy ocenili szeroki zakres modeli - od dużych proprietary'ch (jak GPT-4) przez open-weight modele (takie jak Llama czy Mistral) aż po specjalistyczne modele fokusujące się na językach indyjskich. Wyniki były rozczarowujące: wszystkie testowane LLM konsekwentnie słabiej radziły sobie z instrukcjami w zromanizowanym kodzie mieszanym, a problemy pogłębiały się wraz ze wzrostem gęstości mieszania.
Ciekawe odkrycie dotyczy charakteru błędów - zadania wymagające rozumowania logicznego (jak interpretacja tekstu) traciły mniej wydajności niż zadania detekcji (na przykład identyfikacja toksycznej zawartości). Naukowcy wnioskują, że wyjaśnienia generowane przez modele stanowią dodatkowy kontekst, który pomaga w złożonych wnioskowaniach. Badanie podkreśla konieczność développowania bardziej inkluzywnych systemów multilingual, szczególnie dla społeczności używających zromanizowanego mieszanego kodu jako naturalnej formy komunikacji.