HELLoRA: Warstwa low-rank dla gorących ekspertów w modelach mieszanki ekspertów

Naukowcy opracowali HELLoRA, metodę która pozwala na tani i szybki trening dużych modeli sztucznej inteligencji opartych na architekturze Mixture-of-Experts. Zamiast dostosowywać całą sieć neuronową, nowe podejście skupia się wyłącznie na tak zwanych gorących ekspertach - częściach modelu, które faktycznie przetwarzają dane wejściowe w danym momencie. Wykorzystując low-rank adaptation na poziomie poszczególnych warstw sieci, badacze osiągnęli drastyczne zmniejszenie liczby parametrów wymagających treningu, co obniża koszty obliczeniowe do ułamka tego, co potrzebne byłoby dla tradycyjnego fine-tuningu.

Stanowi to istotny przełom dla praktycznego wdrażania współczesnych dużych modeli językowych. Modele MoE, jak popularne Google'a Gemini czy open-source'owe rozwiązania, zawierają dziesiątki miliardów parametrów, ale podczas pracy aktywnych jest jedynie mały procent sieci. HELLoRA wykorzystuje to zjawisko, trenując tylko te fragmenty, które się faktycznie aktywują. To otwarcie dostępu do fine-tuningu takich modeli dla mniejszych laboratoriów, startupów i naukowców bez dostępu do potężnych centrów obliczeniowych Google czy Mety.

Metoda ma potencjał zmienić krajobraz dostępu do zaawansowanej sztucznej inteligencji. Zamiast kupować drogie licencje użytkowników u wielkich korporacji, zespoły mogą teraz dostosowywać istniejące modele open-source do swoich specjalizowanych zadań - np. do analizy medycznej, umów prawnych czy pisania kodu - przy wydatkach rzędu kilkuset dolarów zamiast dziesiątek tysięcy. To szczególnie ważne dla Polsce, gdzie budżety na badania AI są ograniczone.