Generowanie w granicy z nieskończeną liczbą halucynacji

Naukowcy przedstawiają nowe podejście do teoretycznego problemu generowania języka w granicy - zagadnienia, w którym system musi nauczyć się tworzyć nowe, prawidłowe zdania na podstawie próbek z nieznanego języka docelowego. Zamiast wymagać perfekcji, model pozwala na nieskończenie wiele hallucynacji lub błędów, jeśli ich odsetek stopniowo spada do zera, co oznacza, że precyzja ostatecznie osiąga doskonałość.

Ramę tę motywuje napięcie między szerokością pokrycia języka a poprawności generowanych tekstów. Tradycyjnie modele musiały wybierać: albo być bardzo konserwatywne i generować tylko znane zdania, albo ryzykować błędy w poszukiwaniu nowości. Badania pokazują, że ta relaksacja standardów - pozwalająca czasami na błędy - może w rzeczywistości zwiększyć recall, szczególnie gdy dlatego adwersarz celowo ukrywa duże części docelowego języka. Praca analizuje również miękką relaksację warunku nowości, gdzie tylko stała część wyników musi być całkowicie nowa.

Wyniki przybliżają teorię do rzeczywistego świata dużych modeli językowych, w którym okazjonalne błędy i powtórzenia są nieuniknione. Zamiast ideału doskonałości, ramę fokusuje się na kontrolowaniu ich tempa - koncepcja znacznie bardziej praktyczna dla współczesnych systemów generowania tekstu, które operują w skomplikowanych, wielowymiarowych przestrzeniach.