Naukowcy z arXiv opublikowali pracę opisującą Context-Ready Transformer, nową architekturę łączącą mocne strony transformerów z efektywnością sieci rekurencyjnych. Kluczową innowacją jest correction network - sieć korekcji, która przed każdym tokenem wchodzącym do bloku transformera łączy embedding bieżącego tokena ze zbuforowanym podsumowaniem poprzedniego kontekstu. Dzięki temu token wchodzi do bloku już wstępnie skontekstualizowany, zamiast jako surowy embedding.
Wyniki eksperymentów są imponujące. Model z D=5 (5 warstw) bije wydajnością standardowy 12-warstwowy transformer, jednocześnie generując tekst 1,7 razy szybciej na GPU A100. Jeszcze bardziej dramatyczne jest porównanie modelu jedno-warstwowego (D=1): przy K=10 iteracjach unrollingu osiąga on wydajność 6-warstwowego transformera ze speedupem 2,6x podczas inferecji sekwencyjnej. Architektura wykazuje też lepsze wyniki na zadaniach wymagających głębokich zależności, takich jak pointer-chasing, gdzie transformery tradycyjnie borykają się ze skalowaniem głębokości.
Architektura może być również konwertowana z istniejących pretrenowanych transformerów poprzez dodanie zerowo-inicjalizowanej correction FFN i fine-tuning. To oznacza praktyczną możliwość modernizacji istniejących modeli. Najlepsze rezultaty osiąga model z szerokimi reprezentacjami i długimi kontekstami, co sugeruje, że ta architektura lepiej wykorzystuje dostępne zasoby obliczeniowe. Dla branży AI to potencjalnie ważne rozwiązanie problemu efektywności - te same możliwości przy znacznie mniejszych wymaganiach obliczeniowych podczas generowania odpowiedzi.