Naukowcy zaproponowali nową metodę destylacji wiedzy, w której model uczy się na podstawie wielu prób decyzyjnych, analizując zarówno sukcesy jak i porażki równoważnych modeli (peer). Podejście on-policy z multi-rollout pozwala na bardziej efektywne transferowanie doświadczenia między modelami. Technika może znacząco poprawić efektywność treningu modeli decyzyjnych i zmniejszyć liczbę potrzebnych interakcji z środowiskiem.