PermDoRA: Jak adaptery w modelach językowych się interferują — geometria parametrów to nie wszystko

Zespół badawczy zajął się fundamentalnym problemem w tworzeniu zdolnych do wielu zadań dużych modeli językowych: jak połączyć specjalistyczne adaptery dla różnych dziedzin bez wzajemnych konfliktów? Zastosowali metodę DoRA-RBAC, czyli hierarchiczne łączenie adapterów opartych na dekompozycji wag i low-rank adaptation, i porównali standardowe łączenie z zaawansowaną strategią inspirowaną geometrią Riemanna.

Wyniki były zaskakujące. Chociaż geometrycznie świadomiejsze podejście teoretycznie powinno działać lepiej dzięki uwzględnieniu naturalnych zakorzeń parametrów modelu, w praktyce nie dało znacznej przewagi. Wszystkie podejścia uzyskały porównywalne wyniki na badanych zbiorach danych (GPQA, PubMedQA, SimpleQA, WMDP) dla modeli LLaMA-3.1-8B i Mistral-7B.

Diagnoza problemu wykazała, że wyrównanie kątowe adapterów i ich ortogonalność — miary, które intuicyjnie powinny przewidywać jakość składania — są słabymi predyktorami rzeczywistej wydajności. To prowadzi do wniosku, że interferencyja między adapterami zachodzi nie w przestrzeni parametrów, ale w głębokich, nieliniowych reprezentacjach modelu. Odkrycie to zmienia perspektywę na to, jak podejść do projektowania wielodomainowych systemów AI.