SemiScope: Rozdzielenie strojenia klasyfikatora od wspólnej optymalizacji w semi-supervised learning

Naukowcy opracowali SemiScope - narzędzie do głębszego zrozumienia, jak semi-supervised learning działa w praktyce bezpieczeństwa, szczególnie na danych tabelarycznych z klasyfikatorami drzewiastymi. Problem jest realny: w zastosowaniach bezpieczeństwa etykiet jest mało, a SSL powinien propagować informacje z małego zbioru oznaczonego na większe nieoznaczone pule. Jednak dotychczasowe podejścia traktowały SSL jak czarną skrzynię, bez analizy tego, które komponenty naprawdę pomagają.

Badacze użyli optymalizacji bayesowskiej do wspólnego tunowania ustawień SSL, filtrowania pseudo-etykiet, oversamplingu i samego klasyfikatora. Kluczowy eksperyment polegał na porównaniu pełnego pipeline'u z kontrolą, która zamrażała SSL na domyślnych parametrach, ale dała klasyfikatorowi ten sam budżet 100 prób i dostęp do validation-set threshold tuningu. Na 10 procentach etykiet testowali na pięciu zbiorach danych binarne problemy bezpieczeństwa.

Wyniki były zaskakujące: podczas gdy SemiScope poprawiał wyniki średnio o 0,7-12,7 punktów względem domyślnych baseline'ów, tuned-only classifier (Tuned-Clf) okazywał się statystycznie równoważny pełnemu pipeline'owi na 4 z 5 zbiorów. To sugeruje, że львиная część zysków pochodzi z prostego tunowania hyperparametrów klasyfikatora, a nie ze skomplikowanych interakcji z SSL. Dla praktyków w bezpieczeństwie oznacza to, że mogą osiągnąć porównywalne rezultaty zamiast inwestować w AutoML czy zaawansowane wspólne wyszukiwanie - wystarczy solidne dostrojenie klasyfikatora. Wynik na zbiorze Phishing pozostał niejednoznaczny, wskazując na możliwość domeny zależnych od wyjątków.