Naukowcy opracowali COMPASS, pierwszy ujednolicony framework multimodalny, który łączy percepcję i generowanie kontrolowane przez kompozycję wizualną - czyli sposób, w jaki obiekty są ułożone w kadrze. System stanowi znaczący krok naprzód, ponieważ dotychczasowe modele miały problemy z precyzyjnym rozpoznawaniem i kontrolowaniem kompozycji podczas tworzenia obrazów.

Kluczową innowacją COMPASS jest użycie specjalnego tokenu ekspertowego jako centralnego punktu kodującego intencję kompozycyjną. Na etapie percepcji token ten jest wstrzykiwany do sieci MoE (Mixture of Experts) w minimalnie inwazyiny sposób, a następnie reużywany podczas generowania treści jako globalny sygnał warunkowania, który steruje przebiegiem generowania. To pozwala na przekształcenie pasywnej analizy kompozycji w jawną kontrolę layoutu. Aby wspierać nauczanie na dużą skalę, zespół utworzył zbiór danych Comp-11 zawierający 11 kategorii kompozycji z adnotacjami wzbogaconymi rozumowaniem.

Eksperymentalne wyniki pokazują, że COMPASS znacząco poprawia rozumienie kompozycji na poziomie kategorii i dostarcza generowanie bardziej spójne z daną kompozycją i dokładne w stosunku do instrukcji tekstowych, osiągając wyniki lepsze niż silne modele bazowe. Praca otwiera nowe możliwości dla precyzyjnej kontroli treści generowanej przez modele multimodalne.