SpeechDx: benchmark dla klinicznej AI w analizie mowy

Naukowcy z różnych instytucji badawczych zaprezentowali SpeechDx – pierwszy na tak dużą skalę benchmark dedykowany sztucznej inteligencji w klinicznej analizie mowy. Projekt łączy 12 zbiorów danych i 27 zadań obejmujących rozmaite schorzenia neurologiczne i otolaryngologiczne, od parkinsonizmu po afazję i zaburzenia głosu.

Tradicyjnie rozwijanie AI do zastosowań medycznych odbywało się poprzez izolowane, chorobo-specyficzne badania, co utrudniało porównywanie rezultatów i ocenę zdolności generalizacji algorytmów. SpeechDx zmienia ten paradygmat, strukturyzując wszystkie zadania wokół trzech kluczowych etapów produkcji mowy: konceptualizacji (formowanie myśli), formułowania (dobór słów) i artykulacji (kontrola motoryczna wymowy). To pozwala zidentyfikować, czy dana sieć neuronowa rzeczywiście uczy się mechanizmów klinicznych, czy jedynie dostosowuje się do artefaktów konkretnego zbioru danych.

Systematyczna ocena 12 współczesnych koderów audio – od ogólnych modeli takich jak Wav2Vec i HuBERT po domeno-specyficzne rozwiązania – wykazała, że największe modele języka szkolone na masywnych zbiorach danych mowy są najsilniejszymi bazami, ale żaden z nich nie radzi sobie niezawodnie w testach cross-condition czy zero-shot transfer. Domeno-specyficzne modele poprawiają dokładność jedynie na bardzo zbliżonych zadaniach, co sugeruje, że obecne podejścia czymś fundamentalnie się różnią od tego, czego potrzebujemy do wiarygodnego narzędzia diagnozującego. SpeechDx zostaje nowym standardem benchmarkingowym do śledzenia postępów w kierunku ogólnego systemu analizy klinicznej mowy.