2000 hakerów nie zdołało złamać asystenta AI. Oto co się nauczyliśmy

Fernando Irarrázaval przeprowadził eksperyment, w którym 2000 osób próbowało zaatakować publiczny asystent AI oparty na modelu Claude Opus 4.6. Uczestnicy konkursu mogły wysyłać wiadomości email próbując wydobyć dane zawarte w pliku secrets.env lub skłonić system do wykonania niepożądanych działań. Mimo 6000 prób i wydania 500 dolarów na tokeny, nikt nie zdołał przełamać ochrony systemu.

Wynik tego eksperymentu potwierdza obserwacje z branży: producenci czołowych modeli AI inwestują znaczące zasoby w trenowanie swoich systemów tak, aby były odporne na prompt injection attacks. Nowe karty systemowe, takie jak GPT-5.6, pokazują, że laboratorium poświęcają wiele uwagi temu problemowi. Ochrona okazała się skuteczna - system miał jasne instrukcje, aby nigdy nie ujawniać poufnych danych, nie modyfikować swoich plików ani nie wykonywać poleceń pochodzących z wiadomości email.

Jednak wynik nie powinien prowadzić do nadmiernego optymizmu. Sama liczba 6000 nieudanych prób nie gwarantuje bezpieczeństwa - bardziej zaawansowany atak mogłaby przejść. Społeczność bezpieczeństwa wyraża słuszną skeptyczność wobec stanowienia produkcyjnych systemów, gdzie pomyślny prompt injection mogłby spowodować nieodwracalne skutki. Eksperyment pokazuje zarazem postęp technologiczny, jak i konieczność ostrożności przy wdrażaniu AI w wrażliwych zastosowaniach.