Badania wykazały, że modele sztucznej inteligencji trenowane do rozpoznawania amerykańskiego języka migowego rozwijają wrażliwość na abstrakcyjne cechy fonologiczne tego języka. Naukowcy testowali to, używając minimalnych par - par znaków różniących się tylko jednym parametrem fonologicznym, takim jak kształt ręki, lokalizacja lub ruch. Okazało się, że modele rzeczywiście uczą się rozróżniać te różnice, ale w zaskakujący sposób - zdolności zależy od architektury modelu.
Modele bazujące na pozie ciała wykazały większą czułość na kontrasty w kształcie ręki, podczas gdy modele pracujące bezpośrednio na pixelach lepiej rejestrowały zmiany lokalizacji znaku. To sugeruje, że różne podejścia do przetwarzania wideo wzmacniają różne aspekty percepcji fonologicznej. Szczególnie obiecujące było odkrycie, że reprezentacje wewnętrzne modeli pose-based wykazywały korelację z ocenami podobieństwa percepcyjnego wydawanymi przez ludzi - współczynnik korelacji wyniósł około 0,49.
Jednak wyniki ujawniły też ograniczenia. Chociaż modele wykazują spontaniczną fonologiczną percepcję, obecne metody trenowania nie pozwalają im wychodzić poza preferencje wbudowane w ich architekturę. To oznacza, że aby modele języka migowego mogły lepiej generalizować i pracować w bardziej zróżnicowanych scenariuszach, potrzebne są nowe podejścia treningowe wykraczające poza obecne ograniczenia architektoniczne.