Uniwersalne transformery potrzebują pamięci: kompromisy głębokości a stanu w adaptacyjnym rozumowani

Uniwersalne transformery potrzebują dodatkowych mechanizmów pamięci, aby sprawnie radzić sobie z rekurencyjnym rozumowaniem. To wniosek z badania, które głębiej przyglądało się architekturze tych modeli i ich ograniczeniom w rozwiązywaniu złożonych problemów wymagających wielokrotnego przetwarzania informacji.

Transformery to fundamentalna architektura stojąca za największymi modelami AI, takimi jak GPT czy Claude. Jednak w ich pierwotnej formie mają trudności z zadaniami, które wymagają powtarzającego się logicznego rozumowania - na przykład śledzenia zmian stanu w zadaniach ukrywania obiektów czy rozwiązywania zagadek wymagających wielu kroków myślowych. Uniwersalne transformery - wariant opracowany do obsługi zmiennych długości sekwencji poprzez rekurencję - potencjalnie rozwiązywały ten problem, ale ich wydajność była mniej efektywna niż oczekiwano.

Badanie pokazuje, że bez wyraźnych mechanizmów pamięci uniwersalne transformery muszą kompensować to przez zwiększanie głębokości sieci, czyli dodawanie kolejnych warstw przetwarzania. To jednak wiąże się ze znacznymi kosztami obliczeniowymi i nie daje tak dobrych wyników jak modele wyposażone w dedykowane struktury do przechowywania stanu. Innymi słowy, istnieje fundamentalny kompromis: albo budujemy głębokie sieci wymagające więcej obliczeń, albo dodajemy pamięć i utrzymujemy je mniej zaawansowanymi. Ta obserwacja ma ważne znaczenie dla projektowania przyszłych modeli, sugerując, że aby transformery mogły lepiej myśleć na wiele kroków, musimy myśleć bardziej strategicznie o tym, jak dajemy im dostęp do informacji z poprzednich obliczeń.