Naukowcy z tej pracy przedstawili ALEE - nową ramę oceniającą jakość embeddingów tekstowych w dowolnym języku przy pomocy angielskich danych równoległych. System działa poprzez generowanie minimalnych par angielskich ze zmianami semantycznymi na poziomie Abstract Meaning Representations, które następnie są tłumaczone na języki docelowe, umożliwiając diagnostykę modelom w każdym języku.
Aktualne benchmarki do oceny embeddingów mają wiele ograniczeń - są statyczne, obejmują tylko ograniczony zestaw języków, często są domenowo-specyficzne, podatne na overfitting i słabo reprezentują języki niskoźródłowe. ALEE rozwiązuje te problemy poprzez skalowalne podejście wykorzystujące tłumaczenia równoległe. Naukowcy przeprowadzili badanie na szerokim zestawie modeli embeddingów obejmujące 275 plus języków z trzema zbiorami danych równoległych.
Wyniki pokazały, że wydajność modelów znacznie się różni w zależności od języka, długości tekstu i konkretnych fenomenów lingwistycznych. Badania ujawniły persistentne braki w reprezentacji semantycznej dla języków mniej reprezentowanych w danych treningowych, co koreluje z częstością języka w zasobach treningowych i sposobem tokenizacji subword. Kod i dane zostały udostępnione publicznie na GitHubie, co pozwoli społeczności badawczej testować swoje modele na tej platformie.