Mała grupa Wikipedystów zmienia wartości dużych modeli AI poprzez edycje artykułów

Badacze odkryli, że zaledwie 125 edycji dokonanych przez grupę Pro-Animal Wikipedians znacząco wpływa na sposób, w jaki języki modele takie jak Llama 3.1 8B odpowiadają na pytania dotyczące ochrony zwierząt. Korzystając z technik atrybuacji opartych na gradientach, naukowcy przeanalizowali, które dokumenty z danych treningowych miały największy wpływ na zachowanie modeli. W przypadku zapytań o dobrostan zwierząt, edycje PAW stanowiły 68 procent najczęściej przywoływanych dokumentów, podczas gdy dla niezwiązanych zapytań o te same firmy odsetek spadał do 52 procent, co wskazuje na precyzyjny związek między treścią PAW a tematyką ochrony zwierząt.

Wikipedia jest obecna w prawie każdym głównym zbiorze danych treningowych modelów językowych i ma większą wagę niż tekst zebrany z sieci. To daje współpracownikom platformy nadzwyczajną moc kształtowania tego, jak AI dyskutuje o różnych tematach. Szczególnie interesujące są wyniki bardziej zaawansowanej metody MAGIC, które pokazały, że dla Llama-3.2-1B wszystkie dziesięć najwpływowszych dokumentów dla zapytań o ochronę zwierząt pochodziły z edycji PAW, podczas gdy dla pytań ogólnych wyniki były na poziomie przypadkowym.

Badanie sugeruje, że mała, skoncentrowana grupa działaczy może skutecznie wpływać na wartości i punkty widzenia systemów AI poprzez edycję powszechnie cytowanego źródła. To podnosi ważne pytania dotyczące pluralizmu informacyjnego, przejrzystości procesów treningowych modelów oraz odpowiedzialności tych, którzy decydują o zawartości wykorzystywanej do szkolenia zaawansowanych systemów sztucznej inteligencji.