Badacze z arXiv zaproponowali ProfiLLM — system, który wprowadza duże modele językowe do produkcyjnych systemów dyspozytorskich ride-hailing jako generatory semantycznych cech na podstawie behawioralnych logów w skali platformy. Podczas gdy dotychczasowe pipeline'y dopasowujące pracują przede wszystkim na strukturalizowanych cechach numerycznych, czasami kluczowe sygnały behawioralne — takie jak niechęć kierowcy do określonych rejonów miasta — są naturalnie wyrażalne przez LLM-generowane profile użytkowników.

Głównym wyzwaniem jest skalowanie takiego profilowania do wymogów systemu działającego na żywo z opóźnieniami rzędu milisekund. Na platformie obsługującej miliony zamówień dziennie logi przekraczają kontekst LLM o wiele rzędów wielkości, większość użytkowników to tzw. long-tail bez wystarczającej liczby interakcji do profilowania indywidualnego, a fluencyjne z pozoru profile nie zawsze poprawiają użyteczność w zadaniach downstream. ProfiLLM rozwiązuje te problemy za pomocą agentycznego pipeline'u LLM z dwoma modułami: Tool-Augmented Global Knowledge Mining wyposażony w 27 narzędzi analitycznych do wydobywania danych w skali platformy oraz Utility-Aligned Profile Exploration generujący kandydujące profile, oceniający je poprzez proxy użyteczności i iteracyjnie je udoskonalający.

To badanie dotyka rzadko eksplorowanego problemu systemów danych — praktycznego zastosowania LLM w realnych systemach decyzyjnych produkujących miliardy transakcji dziennie. Podejście łączące globalną analizę z lokalnym profilowaniem może być istotne dla innych platform matching'owych, gdzie zachowania użytkowników są kluczowe, ale trudne do złapania w tradycyjnych cechach numerycznych.