Badacze pokazują, że duże modele językowe mogą się samodzielnie ulepszać poprzez reinforcement learning, focusing na łatwych próbkach zamiast trudnych, co zmniejsza zapotrzebowanie na dane treningowe.