Wiosna dla otwartych modeli: 10 architektur z stycznia-lutego 2026

Od stycznia do lutego 2026 roku na rynek trafiło dziesięć istotnych wydań otwartych modeli języka. Sebastian Raschka, znany ekspert od architektur LLM-ów, przeanalizował je chronologicznie, poczynając od Trinity Large (400B parametrów z 13B aktywnymi) od Arcee AI i Kimi K2.5 od Moonshot AI, oba wydane 27 stycznia. Lista obejmuje również Step 3.5 Flash, Qwen3-Coder-Next, GLM-5, MiniMax M2.5, Nanbeige 4.1 3B, Qwen 3.5, modele Ant Group oraz Tiny Aya od Cohere.

Artykuł skupia się na porównaniu architektur między tymi modelami - różnicach w wykorzystaniu Mixture-of-Experts, QK-Norm, Multi-head Latent Attention i innych innowacyjnych rozwiązań. Raschka odwołuje się do swojej wcześniejszej pracy The Big LLM Architecture Comparison, aby uniknąć powtórzeń technicznych, ale jednocześnie wyjaśnić kluczowe różnice w podejściach poszczególnych firm.

To mapowanie jest ważne dla branży, ponieważ pokazuje szybki tempa innowacji w segmencie otwartych modeli i rosnącą konkurencję między chińskimi, amerykańskimi i innymi graczami. Wiele z tych wydań eksperymentuje z różnymi strategiami optymalizacji i specjalizacji - od kompaktowych wariantów 3B parametrów po gigantyczne modele 400B - co sugeruje, że rynek szuka rozwiązań dla różnych zastosowań i ograniczeń sprzętowych.