Zespół badaczy z arXiv opracował nową metodę generowania benchmarków do oceny algorytmów radzących sobie z szumem etykiet (label noise) — sytuacją, gdy dane treningowe zawierają błędnie oznaczone próbki. Problem w dotychczasowych podejściach polega na tym, że szum generowany jest poprzez symulację niedoskonałych adnotatorów, ale dokładne źródło i siła niejednoznaczności pozostają ukryte.

Nowe podejście o nazwie CILN zmienia to radykalnie. Framework na starcie definiuje, jak dokładnie zniekształcić obrazy — przez rozmycie, zmianę kontrastu, obrót czy kombinacje tych operacji. Następnie różne sieci neuronowe etykietują te celowo zniekształcone instancje, co tworzy zestaw danych, w którym zarówno rodzaj, jak i poziom dwuznaczności są w pełni kontrolowalne i przejrzyste. Badacze stworzyli 90 różnych ustawień benchmarkowych na zbiorach CIFAR-10, MNIST i Adult.

Wyniki eksperymentów są ciekawe z kilku powodów. Po pierwsze, uzyskane benchmarki wykazują autentyczny szum zależny od instancji — to znaczy, że sztucznie tworzona dwuznaczność zachowuje się podobnie do rzeczywistych trudnych przypadków. Po drugie, i to chyba najważniejsze, ujawnili oni nieznane wcześniej słabe punkty popularnych algorytmów takich jak Co-Teaching i DivideMix. Okazało się, że struktura szumu, a nie tylko jego natężenie, ma kluczowe znaczenie dla trudności benchmarku i zachowania algorytmów.