Dziennikarz Alex Reisner z The Atlantic odkrył cztery zestawy danych muzyki używane do trenowania modeli AI i przygotował je w formie publicznie dostępnej, przeszukiwalnej bazy danych. Skalę tego przedsięwzięcia pokazują liczby: dwa z czterech zbiorów zawierają odpowiednio 12 milionów i 9 milionów utworów muzycznych, podczas gdy pozostałe dwa, choć mniejsze, stanowią również znaczący zasób danych treningowych.
To ujawnienie ma duże znaczenie dla branży muzycznej i debaty wokół praw autorskich w erze AI. Artyści i producenci długo protestowali przeciwko tajemnemu wykorzystywaniu ich muzyki do trenowania generatywnych modeli AI bez ich wiedzy czy zgody. Baza przygotowana przez The Atlantic umożliwia im wreszcie sprawdzenie, czy ich utwory znalazły się w którymś z odkrytych zbiorów.
Udostępnienie przeszukiwalnej bazy to krok w stronę większej przejrzystości w sektorze, choć firma pozostaje anonimowa co do konkretnych źródeł danych. Ujawnienie skali i zawartości zbiorów treningowych może przyspieszać dyskusję o regulacjach i kompensacji dla twórców, których prace były wykorzystywane bez ich autoryzacji.