ReLoRA: inteligentne dostosowanie modeli przy aktualizacjach LLM

Gdy dostawcy usług AI aktualizują swoje bazowe modele językowe, wszystkie wdrożone już adaptery LoRA (specjalistyczne dostrojenia dla konkretnych zadań) często przestają działać prawidłowo. Retraining każdego z nich od zera to ogromny koszt obliczeniowy i opóźnia wprowadzenie nowych wersji w serwisach. ReLoRA rozwiązuje ten problem poprzez inteligentne przejęcie wiedzy z poprzedniego adaptera.

Metoda działa w dwóch krokach. Najpierw algorytm wykorzystuje optymalizację Bayesa do znalezienia optymalnego punktu startowego — łączy informacje zarówno ze starego adaptera, jak i ze zmian w modelu bazowym. To zapewnia "świadomość kompatybilności" i unika całkowitego startu od zera. Następnie adapter przechodzi szybkie fine-tuning'owe dostrojenie z progresywnym zmniejszaniem regularyzacji: najpierw silne ograniczenia kierują adapter w dobre regiony, potem są rozluźniane dla precyzyjnego tuning'u.

Experymenty pokazują, że ReLoRA drastycznie skraca czas przygotowania usług do uruchomienia, jednocześnie utrzymując lub poprawiając jakość na zadaniach. To rozwiązanie ma praktyczne znaczenie dla dużych operatorów modeli, którzy muszą równoważyć szybkość innowacji z kosztem utrzymania dziesiątek lub setek wdrożonych specjalizowanych adapteryów.