Meta i Stanford opracowują transformer zmniejszający przepustowość pamięci o 50%

Naukowcy z Meta i Stanfordu opracowali Fast Byte Latent Transformer (FBLT) - nową architekturę, która zmniejsza przepustowość pamięci potrzebną do działania transformerów o ponad 50 procent. Zamiast tradycyjnego podejścia opartego na tokenizacji, nowy model przetwarza dane bezpośrednio na poziomie bajtów, co stanowi znaczący przełom w optymalizacji wydajności dużych modeli języka. To rozwiązanie ma potencjał, by drastycznie obniżyć koszty wdrażania i uruchamiania zaawansowanych systemów AI.

Dotychczasowe transformery wymagają przed przetwarzaniem zamiany tekstu na tokeny - jednostki znaczeniowe, które następnie przechodzą przez kolejne warstwy sieci. Proces ten wiąże się z dodatkowymi operacjami na pamięci i wymaga większej przepustowości. FBLT eliminuje ten pośredni krok, pracując wprost z danymi na poziomie bajtów, co nie tylko zmniejsza obciążenie dla RAM-u, ale także przyspiesza całą operację wnioskowania. Dla praktyki oznacza to możliwość uruchamiania bardziej zaawansowanych modeli na słabszym sprzęcie lub przy niższych kosztach infrastrukturalnych.

Innowacja ta trafia w punkt, który martwi branżę od lat - rosnące zapotrzebowanie na moc obliczeniową w miarę jak modele stają się coraz większe. Jeśli FBLT sprawdzi się w praktyce, może zmienić ekonomikę deploymentu AI, czyniąc zaawansowane systemy dostępnymi dla znacznie więcej firm i organizacji. Badanie jest jeszcze na etapie naukowych prac Meta i Stanfordu, ale już teraz zwraca uwagę jako potencjalna odpowiedź na jeden z głównych wyzwań współczesnego machine learning'u.