Kontrola temperatury w ewaluacji bezpieczeństwa LLM jako sędziego - konieczna, ale niewystarczająca

Powszechnie zakłada się, że ustawienie temperatury samplingowej na 0 w modelach używanych do oceny bezpieczeństwa innych modeli sztucze zwiększa ich determinizm i reproducibility. Jednak nowe badania z arXiv (2606.26185v1) pokazują, że założenie to jest błędne na dwóch poziomach. Po pierwsze, harness ewaluacyjny Japan AISI (aisev) w ogóle nie ustawia temperatury ani seed, przez co dostawca API domyślnie stosuje temperaturę 1.0 - w rezultacie elementy znajdujące się blisko granicy decyzji (pass/fail) zmieniają wynik w aż 50% przypadków na przestrzeni 20 identycznych przebiegów.

Po drugie, nawet gdy wymuszy się temperaturę 0 i top_k=1 (greedy decoding), problem nie znika całkowicie. W badaniu obejmującym 690 wywołań API, dwa dostawców, trzy poziomy modeli i pięć konfiguracji samplingowych, 1-2 z 7 elementów borderline pozostało niereproducible. Sytuacja komplikuje się dalej faktem, że Claude Opus 4.7 i 4.8 całkowicie zrezygnowały z parametru temperatury, czyniąc główną mitygację niestosowną dla nowszych generacji modeli.

Te rezultaty ekspozycji strukturalną lukę w systemach ewaluacyjnych bezpieczeństwa. Harnessy raportujące wyłącznie pojedyncze wyniki bez metryk wariancji czy miary rozbieżności sędziego mogą maskować szum jako faktyczną właściwość bezpieczeństwa systemu. Badacze publikują replikacyjny harness z pełnym dataset i rekomendują, aby ewaluacyjne frameworki traktowały niezgodę między sędziami jako metrykę zdrowotną pierwszoplanową, równoważną samym wynikom.