Dlaczego generacja tekstowa w kilku krokach zawodzi, a generacja obrazów nie - problem ostrego dekod

Zespół badawczy z arXiv rozwiązał geometryczną zagadkę: dlaczego deterministyczne generowanie w kilku krokach succeeds na ciągłych latentach obrazów, ale zmienia się w bełkot dla tekstu. Problem nie wynika z niedostatecznego treningu ani mocy modelu, lecz z faktu, że gładka mapa deterministyczna nie potrafi rozróżnić dyskretnych wyborów kategorii zanim dojdzie do ostrego dekodera - czyli tym, co zamienia liczby na ostateczne tokeny słów.

Badacze udowodnili matematycznie, że ostrość dekodera tekstu (mierzona metryką DABI - Directional Amplification Boundary Interference) jest kluczowa. Cztery niezależnie zbudowane dekodery tekstowe amplifikują perturbacje w pobliżu granic decyzyjnych nawet ponad 100 tys. razy, podczas gdy dekodery obrazów osiągają amplifikację blisko 1. Wprowadzili też metrykę CCI (categorical commitment) do mierzenia gotowości systemu do podjęcia ostatecznej decyzji. Teoria przewiduje także tempo zmian tokenów w ostatnim kroku - zależy od masy latentów w pobliżu granic decyzyjnych.

Artykuł pokazuje dwie strategię ucieczki z tego problemu: autoregresywne dekodery mimo ostrzejszych readoutów sobie radzą dzięki commitment strukturze, oraz stochastyczne wtryskiwanie szumu (SDE zamiast ODE) - w eksperymencie osiągnięcie perplexity 50 ze stochastycznym podejściem versus 294 dla czystej deterministyki na tym samym modelu. Wymiar latentów pełni rolę fazową w dynamice - aby oddzielić M modów, wymagana stiffness rośnie jako Θ(sqrt(log M)) gdy wymiar to Ω(log M).