DeepSeek V3.2: nowa architektura, attention rzadki i ulepszenia w reinforcement learning

DeepSeek opublikował nowy model V3.2 z wydajnością dorównującą flagowym modelom proprietary takim jak GPT-5 i Gemini 3.0 Pro, jednocześnie udostępniając go jako open-weight model. Wydanie nastąpiło w okresie świąt, podobnie jak wcześniejsza premiera V3 w grudniu 2024 roku.

Model V3.2 ewoluuje architekturę V3 z kilkoma istotnymi ulepszeniami. Zespół DeepSeek wdrożył mechanizm sparse attention, który pozwala na bardziej efektywne przetwarzanie danych, oraz znaczące aktualizacje w strategii reinforcement learning. Te zmiany architektoniczne mają bezpośredni wpływ na wydajność modelowania i efektywność obliczeniową.

Succes DeepSeek V3.2 wpisuje się w szerszy trend wzrostu znaczenia otwartych modeli wagi. Choć pierwotnie V3 nie zyskał popularności, model rozumowania R1 oparty na identycznej architekturze sprawił, że DeepSeek stał się jednym z najpopularniejszych otwartych modeli oraz wiarygodną alternatywą dla zamkniętych rozwiązań OpenAI, Google, xAI i Anthropic. Publiczne wydania technicznych raportów DeepSeek ujawniają wartościowe lekcje dla całej branży.