Architektura Wiola dla efektywnych małych modeli językowo-AI

Zespół naukowców przedstawił Wilolę - nową architekturę małego modelu językowego stworzoną zupełnie od zera, bez jakiegokolwiek nawiązania do istniejących rodzin modeli jak GPT, LLaMA, Mistral czy Falcon. Projekt całkowicie odbiega od dotychczasowej praktyki adaptowania sprawdzonych schematów i zamiast tego proponuje pięć fundamentalnie nowych rozwiązań technicznych.

Pierwsza innowacja to Spiral Rotary Positional Encoding (SRPE), która koduje pozycje tokenów na trójwymiarowej rozmaitości helikalnej, łącząc sygnały pozycji absolutnej, względnej i hierarchicznej w jeden, bardziej ekspresywny system. Druga to Gated Cross-Layer Attention (GCLA), umożliwiająca każdej warstwie dekodera miękki dostęp krzyżowy do kompresowanych streszczeń dwóch poprzednich warstw dla lepszej spójności między warstwami. Trzecia - Adaptive Token Merging (ATM) - dynamicznie łączy semantycznie zbędne sąsiadujące tokeny w środkowych warstwach sieci, zmniejszając złożoność uwagi bez utraty informacji. Czwarta to Dual Stream Feed-Forward (DSFF), zastępująca konwencjonalny MLP dwoma równoległymi strumieniami połączonymi bramką ucząca się na wymiar. Piąta to WiolaRMSNorm, zmodyfikowana normalizacja wprowadzająca wektor uczonego offsetu dla wymiaru, co zapobiega kolapsu reprezentacji.

Wiola udostępniona zostaje w czterech wariantach - o rozmiarach 120 milionów, 360 milionów, 700 milionów i 1,5 miliarda parametrów. Wszystkie modele są w pełni kompatybilne z ekosystemem HuggingFace Transformers i przeszły wszystkie 22 testy jednostkowe architektury. Naukowcy dostarczyli kompletne wyprowadzenia matematyczne, diagramy bloków architektonicznych oraz systematyczne porównania z GPT-2, LLaMA-2 i Mistral, co stanowi potencjalny punkt zwrotny w podejściu do projektowania małych modeli językowych bez konieczności polegania na sprawdzonych już wzorach.