Red-teaming po Mythos - Kolter i Fredrikson o bezpieczeństwie AI

Zico Kolter, członek zarządu OpenAI ds. Bezpieczeństwa, i Matt Fredrikson, profesor CMU oraz CEO Gray Swan, spotykają się by omówić aktualny stan red-teamingu w sztucznej inteligencji. Rozmowa pojawia się w momencie, gdy rząd USA wydał dyrektywę ograniczającą eksport modeli Mythos i Fable - decyzja, która nagłe rzuciła światło na zagrożenia związane z jailbreaksami i atakami prompt injection, nazywanymi w branży indirect prompt injections.

Obaj eksperci są autorami przełomowego artykułu na temat indirect prompt injections i bezpośrednio bada zagrożenia, które teraz znajdują się w centrum uwagi regulatorów i bezpieczeństwa AI. Gray Swan pracuje także nad narzędziami ochrony, w tym Shade - narzędziem do red-teamingu używanym przez Anthropic do oceny odporności ich modeli na ataki prompt injection w środowiskach kodowania. Ich zdaniem jednak obecne narzędzia bezpieczeństwa, choć zaawansowane, tylko odkładają nieuniknione zagrożenia.

Ryzyko związane z coraz bardziej inteligentnymi systemami AI przypomina tzw. grey swan events - zdarzenia, które każdy widzi zbliżające się do horyzontu. Zamiast szokować zaskoczeniem, stanowią one rosnące zagrożenie, które całą branża obserwuje, ale wciąż nie potrafi całkowicie wyeliminować. Oprócz Shade, ekosystem bezpieczeństwa Gray Swan obejmuje także Cygnal - produkt guardrails dla AI - oraz największą na świecie arenę red-teamingu AI, gdzie testerzy bezpieczeństwa takie jak Wyatt Walls pracują nad identyfikacją nowych słabości.