Prime Intellect wydał prime-rl 0.6.0, otwarty framework dedykowany do asynchronicznego reinforcement learningu na gigantycznych modelach Mixture-of-Experts z parametrami liczącymi się w bilionach. Framework został przetestowany na modelu GLM-5, trenowanym na zadaniach inżynierii oprogramowania przy długości sekwencji do 131 tysięcy tokenów.

Wydajność systemu jest imponująca - pojedyncze kroki treningowe zajmują poniżej 5 minut, a framework obsługuje 256 rolloutów jednocześnie, wykorzystując 28 węzłów sprzętu H200 Nvidia. Ta prędkość jest możliwa dzięki kombinacji zaawansowanych optymalizacji: FP8 inference dla zmniejszenia zużycia pamięci, Wide Expert Parallelism dla efektywnego rozkładu eksperckich warstw, strategii prefill/decode disaggregation oraz router replay. System wykorzystuje również 3-D parallelism łączący FSDP, expert parallelism i context parallelism.

Wydanie prime-rl 0.6.0 otwiera drzwi dla badaczy i zespołów do trenowania ultra-dużych modeli z reinforcement learningiem na zadaniach wymagających długiego kontekstu. Dla branży jest to znaczące, bo dotychczas takie kombinacje były dostępne głównie dla największych laboratorium technologicznych - teraz framework jest publiczny i otwarto-źródłowy, potencjalnie przyspieszając rozwój zaawansowanych systemów agentycznych.