DRIFT: Ulepszanie danych instrukcji przez atrybutację na zasadzie on-policy

Zespół badaczy opracował DRIFT, metodę do udoskonalania danych instrukcji dla modeli języka poprzez identyfikację instancji treningowych, które mają największy wpływ na ostateczną wydajność modelu. Problem, który DRIFT rozwiązuje, to nie wybór mniejszego podzbioru danych zachowującego wydajność, ale refinement rozkładu danych w kierunku instancji zdolnych do największego podniesienia możliwości modelu.

Standardowe podejścia do atrybutacji danych przy użyciu Influence Functions miały dwa poważne ograniczenia strukturalne: proximity gap spowodowany off-policy celami walidacyjnymi oraz silne obciążenie wobec gradienty normy. DRIFT elegancko je obchodzi, zamiast polegać na zewnętrznych danych referencyjnych, wykorzystuje model's on-policy rollouts jako cele walidacyjne. To empirycznie minimalizuje parameter proximity gap i lepiej dopasowuje się do lokalnego założenia IF. Metoda dodatkowo stosuje ważenie znakowe na podstawie poprawności trajektorii i debiasuje influence scores przeciwko gradient hacking issue.

Wyniki eksperymentów na 7-miliardowych modelach instrukcji i reasoning pokazują, że DRIFT konsekwentnie podnosi wydajność. Kluczową zaletą jest to, że mały zestaw validation queries może służyć jako niezawodne zakotwiczenie do atrybutacji pełnego datasetu, co czyni metodę praktyczną dla rzeczywistych zastosowań.