Naukowcy zauważyli kluczowy problem w on-policy distillation: jakość nadzoru nauczyciela zależy od tego, jak dobrze student potrafi rozwiązywać zadania. Gdy model jeszcze się uczy, jego generacje mogą być chaotyczne i powodować szumy w gradientach, a tokeny już opanowane dają zbędne sygnały treningowe. To marnuje zasoby na trzech poziomach - indywidualnych tokenów, faz treningowych i zestawów promptów.
SEAD rozwiązuje ten problem używając entropii jako uniwersalnego wskaźnika spadku jakości nadzoru. Po pierwsze, entropia nauczyciela i studenta dzieli tokeny na strefy - jedne otrzymują dostosowane odchylenia, inne zerowy gradient (co pomija około 50% tokenów). Po drugie, harmonogram cosine stopniowo zmienia funkcję straty z forward KL (na początku) na reverse KL (gdy student się ulepszy). Po trzecie, curriculum z progresją easy-to-hard wprowadza prompty od prostych do trudnych, zapewniając spójne generacje niezbędne dla selekcji tokenów.
Testy na modelach OLMo w wersjach 7B, 13B, 32B wykazały, że SEAD dodaje średnio 4,8 punktu dokładności w stosunku do zwyczajnego on-policy distillation na sześciu benchmarkach matematycznych. Ablacyjne eksperymenty potwierdziły, że komponenty są wzajemnie zależne i wzmacniają się nawzajem, a nie działają w izolacji.