Błęd wyboru próbek przyspiesza kolaps modeli AI

Kiedy trenujemy modele sztucznej inteligencji na syntetycznych danych wygenerowanych przez inne modele, ryzykujemy zjawisko zwane model collapse — dane stopniowo tracą różnorodność, a wyniki stają się coraz bardziej jednolite. Naukowcy z arXiv pokazali, że problem pogarsza się dramatycznie w sytuacjach, gdzie organizacje trzymają dane w silo i nie mogą się nimi dzielić ze względu na poufność. Wtedy każdy podmiot widzi tylko małą, odkształconą część rzeczywistego rozkładu danych.

Intuitywnie mogłoby się wydawać, że selekcja danych — czyli wybór najlepszych próbek — powinna chronić model przed kolapem. Jednak w świecie silo ta strategia działa odwrotnie: każda organizacja wybiera próbki najbliższe swojemu lokalnemu widoku, a tym samym odrzuca właśnie te zastawiające — części danych, które są globalne istotne ale lokalnie rzadkie. To jak by każda osoba w pokoju wybierała tylko ludzi do siebie podobnych do rozmowy, co w efekcie homogenizuje całą grupę.

Badacze teoretycznie udowodnili, że ten mechanizm przyspieszonym upadek różnorodności, zgodnie z prawem potęgowym. Zaproponowali rozwiązanie: konstruowanie wspólnych referencji (proxy) na bazie metody Wassersteina z wielu silo, bez konieczności dzielenia się surowymi danymi. Eksperymenty potwierdzają, że takie kolaboratywne podejście efektywnie hamuje degradację jakości, co jest kluczowe dla rekurencyjnych pipelineów danych syntetycznych, szczególnie w sektorach takich jak medycyna czy finanse.