Nowa metoda łączy tanią symulację na dużą skalę z zaledwie szczyptą rzeczywistych danych człowieka, aby wytrenować autonomiczne pojazdy, które zachowują się jak ludzie. Tradycyjny self-play reinforcement learning uczy się skutecznych, ale obcych konwencji jazdy — pojazd może jeździć efektywnie, ale w sposób zupełnie nieprzewidywalny dla ludzi na drodze. Poprzednie prace starały się rozwiązać to poprzez żmudne inżyniowanie nagród i randomizację domeny, ale metody te były kruche i wymagały wiele pracy.

Zamiast całkowicie odrzucać demonstracje człowieka, zespół badaczy użył ich jako regularyzacji na szczycie minimalnej nagrody bezpiecznego osiągania celu. Jak przyprawy w dobrym potrawiu, okazało się, że trochę danych człowieka idzie bardzo daleko: algorytm wymaga zaledwie 30 minut nagrań, co stanowi 2500 razy mniej niż porównywalne podejścia polegające na imitation learning. Wynikowe polityki potrafią koordynować się z zatrzymanymi trajektoriami człowieka.

Trening kompletny zajmuje 15 godzin na jednotychnej konsumenckiej karcie graficznej, co czyni metodę praktyczną dla szerszych badań. Dostęp do wideo i pełnego kodu źródłowego jest dostępny online, co umożliwia szybką reprodukcję i iteracyjne udoskonalanie podejścia w społeczności badaczy.