Transfer learning z wieloma modelami źródłowymi napotyka fundamentalny problem skalowania: tradycyjne podejścia wymagają albo jednoczesnego załadowania wszystkich K modeli do pamięci, albo deployu wszystkich podczas inference'u. Zespół zaproponował GRASP (Gradient-Aligned Sequential Parameter Transfer), który zmienia ten paradygmat poprzez sekwencyjne przetwarzanie modeli jedno po drugim w ramach ewoluującego modelu docelowego.
Kluczowa innowacja polega na wyrównaniu gradientów na poziomie parametrów. Zamiast ślepo transferować wszystkie parametry, metoda wybiera tylko te, których kierunek optymalizacji się zgadza z domeną docelową. To eliminuje negatywny transfer — sytuację, gdzie wiedza ze źródła faktycznie pogarsza wydajność. Ponadto GRASP iteracyjnie dostosowuje przeniesioną wiedzę przed zintegrowaniem kolejnego źródła, co pozwala modelowi na prawidłowe asymilowanie informacji.
Wyniki z trzech benchmarków (Yearbook, CLEAR-10, CLEAR-100) obejmujących rozkłady czasowe od 10 do 108 lat pokazują, że GRASP osiąga 93,5% średniej dokładności przy zużyciu pamięci O(1), podczas gdy tradycyjne podejścia potrzebują O(K). To oznacza, że metoda skaluje się do arbitralnie wielu źródeł bez wzrostu zapotrzebowania na pamięć, co jest przełomowe dla deploymentu na urządzeniach z ograniczonymi zasobami.