Rok 2025 okazał się przełomowym dla branży dużych modeli języków, bez żadnych oznak spowolnienia postępu technologicznego. Choć scaling tradycyjny nadal funkcjonował, rzeczywista zmiana przyszła z innego kierunku - DeepSeek R1, opublikowany w styczniu 2025, pokazał, że zachowania przypominające rozumowanie można rozwijać za pomocą reinforcement learning zamiast zwykłego skalowania. To okazało się naprawdę znaczące odkryciem, szczególnie w porównaniu z OpenAI's o1, który jedynie dodał ślady rozumowania do istniejącej już logiki.

DeepSeek R1 zwrócił ogromną uwagę z kilku kluczowych powodów. Po pierwsze, model był wydany jako otwarto-wagowy system, co stanowiło istotną zmianę w krajobrazumarketu zdominowanym wcześniej przez proprietary systemy. Po drugie, jego wydajność była porównywalna z najlepszymi dostępnymi modelami takimi jak ChatGPT czy Gemini, przy czym użytkownik mógł go wdrażać lokalnie. Papier DeepSeek R1 zmotywował inwestorów i dziennikarzy do ponownego przeanalizowania całej strategii rozwojowej branży.

W kontekście LLM rozumowanie oznacza, że model nie tylko dostarcza odpowiedź, ale wyjaśnia kroki prowadzące do jej osiągnięcia - a te wyjaśnienia sama w sobie prowadzi do poprawy dokładności odpowiedzi. Zainteresowanie RLVR i GRPO jako metodami trenowania stało się głównym trendem roku, przesuwając fokus z czystego skalowania na bardziej zaawansowane techniki optymalizacji. 2025 potwierdził, że przyszłość LLM leży w inteligentniejszych, a nie tylko większych modelach.