PersonaDrive: agenci VLA z retrieval dla realistycznej jazdy w symulatorach

PersonaDrive to nowy pipeline łączący vision-language-action modele z retrieval learning do symulacji jazdy w zamkniętej pętli. System uczy się z nagrań kierowców, którzy prowadzili pojazdy w symulatorze CARLA pod różnymi instrukcjami dotyczącymi stylu jazdy - agresywnego, neutralnego i zachowawczego. Dzięki temu agent potrafi naśladować naturalne wzory zachowań zamiast jedynie pogenerować średnią stylizację.

Podejście opiera się na trzech krokach. Najpierw system wydobywa tripletów (grupy podobnych sytuacji) z danych każdego stylu, używając łączonego score'a podobieństwa obrazu i tekstu. Następnie trenuje lekką głowicę retrieval, która łączy cechy wizualne z kodowaniem kontrolnym dla każdej bazy danych stylu. Na koniec fine-tunuje główny model VLA, traktując pobrane fragmenty jako demonstracje kontekstowe przy przewidywaniu waypoint'ów.

To rozwiązanie ma kilka zalet. Podczas wnioskowania system może przełączać się między stylami bez konieczności przetreniania - wystarczy zmienić bazę danych, którą bada retrieval head. Podejście oparte na rzeczywistych ludzkich demonstracjach jest bardziej wiernie reprezentuje naturalne zachowania kierowców niż wcześniejsze metody oparte na post-hoc labelach czy wnioskach z LLM. To szczególnie ważne dla symulatorów jazdy autonomicznej, gdzie realistyczne otoczenie z różnorodnymi agentami jest kluczowe do wiarygodnych testów systemów bezpieczeństwa.