DeepSeek opublikował DSpark, specjalistyczną metodę optymalizacji wnioskowania dla szybszego generowania tekstu przez duże modele. Framework jest dostępny z otwartymi kodami i checkpointami, choć sam nie stanowi nowego modelu - zamiast tego przeznaczony jest do przyspieszenia istniejącego DeepSeek-V4. Opublikowano również DeepSpec, bibliotekę z licencją MIT do treningu i ewaluacji systemów draft-verify.
DSpark zmienia sposób, w jaki generuje się tokeny w speculative decodingu. Tradycyjne podejście polega na tym, że mały draft model proponuje blok tokenów, a następnie pełny model je weryfikuje w jednym forward passie. DSpark dodaje do tego inteligentny komponent - confidence head oraz load-aware scheduler, który zmienia logikę weryfikacji w zależności od obciążenia GPU. Gdy karty graficzne są bezczynne, system weryfikuje więcej tokenów, gdy są zajęte - mniej. To pozwala na dynamiczną adaptację do warunków produkcyjnych bez utraty jakości wyjścia.
Wyniki testów pokazują znaczący postęp. Offline, akceptowana długość sekwencji wzrosła o 26-31% w stosunku do Eagle3 i 16-18% wobec DFlash. W rzeczywistych warunkach produkcyjnych na DeepSeek-V4, generowanie per-użytkownika działa 60-85% szybciej niż poprzedni baseline MTP-1. Kluczowe jest to, że DSpark zachowuje pierwotny rozkład wyjścia - nie ma utraty jakości, a cały kod razem z checkpointami jest otwarty dla społeczności.