DeepReinforce prezentuje Ornith-1.0: model kodowania z open-source'owym uczeniem RL

DeepReinforce wydał Ornith-1.0, rodzinę kodowania modeli o rozmiarach 9B, 31B, 35B-MoE i 397B-MoE, wszystkie dostępne pod licencją MIT na Hugging Face. Modele zbudowano na bazie Gemma 4 i Qwen 3.5, ale co istotne - każdy model uczy się generować własne scaffoldy podczas treningu RL zamiast opierać się na sztywnych, wcześniej zaprojektowanych strukturach.

Tradycyjnie agenty kodujące łączy się z ustaloną harness'em zaprojektowanym przez ludzi. Ornith-1.0 zmienia to podejście, umożliwiając modelowi nauka tworzenia własnych struktur wspomagających, a tym samym wspólną optymalizację harness'u i rozwiązania problemu. To podejście okazuje się bardziej elastyczne i pozwala modelom lepiej dostosowywać się do różnych typów zadań kodujących.

Największa wersja, Ornith-1.0-397B, osiąga wyniki na poziomie Claude Opus 4.7 na kluczowych benchmarkach, co stanowi imponujący rezultat dla modelu open-source'owego. Jednak nie przebija nowszych wersji Opus 4.8 czy znacznie większego GLM-5.2-744B. DeepReinforce zastosował trzywarstwową ochronę przed reward hacking'iem: ustalone granice zaufania, deterministyczne monitory i zamrożonego sędziego LLM. Wszystkie checkpointy zawierają bloki <think> do rozumowania oraz wspierają well-formed tool calls dla agentów, z opcjonalnymi wersjami FP8 i GGUF dla szybszego lokalnego uruchamiania.