Naukowcy zbadali, jak duże modele językowe mogą nauczyć się celowo generować błędne odpowiedzi w spójny sposób, analizując liniowe reprezentacje tej syntetycznej dezinformacji. Badanie ujawnia mechanizmy, dzięki którym modele mogą być uczone do produkowania nieprawdziwych informacji, co ma istotne implikacje dla bezpieczeństwa AI i zrozumienia, jak modele przechowują i manipulują wiedzą. Wyniki mogą pomóc w opracowaniu lepszych metod detekcji dezinformacji generowanej przez AI oraz w zrozumieniu
Badania
arXiv CS.LG