NVIDIA AI wypuścił DeltaNet-2, nową architekturę z liniowym mechanizmem attention, która rozdziela operacje erasowania i pisania w Delta Rule. Rozdzielenie tych funkcji pozwala na bardziej efektywne przetwarzanie i lepszą kontrolę nad informacją w modelu. Innowacja ta mogła potencjalnie poprawić efektywność i wydajność dużych modeli językowych, stanowiąc krok naprzód w optymalizacji mechanizmów attention.
Badania
MarkTechPost