ITNet: Unifikowana architektura łącząca splotki, uwagę i rekurencję

Naukowcy opracowali ITNet, nową architekturę ujednolicającą trzy główne paradygmaty głębokich sieci neuronowych: sieci splotowe, rekurencyjne i transformery. Wykazali, że pomimo matematycznego rozgraniczenia tych podejść od ich powstania, wszystkie są specjalnymi przypadkami jednego fundamental obiektu matematycznego — uczalnego przekształcenia całkowego z jądrem zależnym od pozycji i cech.

Rdzeń ITNet stanowi mała sieć neuronowa (MLP), która modeluje interakcje pairwise między elementami danych, umożliwiając architekturze dynamiczną adaptację do danych uczących. Pod odpowiednimi parametryzacjami z tego unified frameworku wyłaniają się sploty, self-attention (w tym multi-head) oraz autoregresyjna rekurencja (LSTM, GRU, S4, Mamba). Autorzy udowodnili, że ITNet jest uniwersalnym aproksymatorem operatorów ciągłych, co stanowi istotną teoretyczną gwarancję.

Praktyczne wdrożenie wymagało opracowania trzech technik optymalizacyjnych: tiled kernel fusion, importance-weighted Monte Carlo integration i learned low-rank factorization, umożliwiających skalowalne obliczenia. Pojedyncza architektura ITNet z wspólnym operatorem i lekkimi enkoderami specyficznymi dla modalności dorównała lub przewyższyła wyspecjalizowane modele na benchmarkach ImageNet-1K, GLUE, ModelNet40, VQA v2 i NLVR2. To sugeruje, że poszukiwanie odrębnych architektur dla różnych domenach może być zbędne — jeden nauczony operator może uniwersalnie działać na różnych typach sygnałów.