JetBrains udostępnia Mellum2 - lekki model MoE do szybkich zadań specjalistycznych

JetBrains udostępnił właśnie nowy model sztucznej inteligencji o nazwie Mellum2, który ma znacząco przyspieszać pracę nad specjalistycznymi zadaniami w systemach AI. To 12-miliardowy model oparty na architekturze MoE (Mixture of Experts), którą cechuje inteligentny podział pracy między wyspecjalizowanymi podmodelami. Całość trafiła na licencję Apache 2.0, co oznacza, że każdy może go zainstalować, modyfikować i wykorzystywać komercyjnie bez żadnych opłat czy ograniczeń. Model trenowano na imponującym zbiorze 10,6 biliona tokenów, co daje mu solidne podstawy do rozumienia tekstu i wykonywania złożonych operacji.

Znaczenie tego ruchu tkwi przede wszystkim w dostępności. Open-source'owe modele średniej wielkości są coraz bardziej potrzebne, szczególnie gdy deweloperzy chcą unikać zależności od dużych, kosztownych API czy modeli gigantów technologicznych. Mellum2 został zaprojektowany specjalnie do pracy w wielomodelowych pipeline'ach, czyli systemach, które łączą kilka modeli jednocześnie do realizacji różnych etapów zadania. Dzięki architekturze MoE model może aktywować tylko te części sieci neuronowej, które są potrzebne do konkretnego problemu, co zmniejsza zużycie zasobów obliczeniowych i przyspieszenia wykonanie.

To ma realne konsekwencje dla ekosystemu narzędzi deweloperskich, którymi JetBrains jest znany. Firmy mogą teraz wdrażać zaawansowane funkcje wspierane przez AI bezpośrednio w swoich produktach, bez konieczności polegania na zewnętrznych dostawcach. Dla programistów oznacza to więcej opcji do eksperymentów i budowania własnych rozwiązań AI na swoich warunkach, ze względu na wydajność i prywatność.