Deweloper ukrywa niszczący dane prompt injection dla programistów prompts

Badacz bezpieczeństwa pokazał, jak łatwo można zaatakować systemy AI, ukrywając złośliwe instrukcje bezpośrednio w kodzie źródłowym. Przeprowadzony eksperyment demonstruje poważną lukę w ochronie modeli językowych przed prompt injection - atakami polegającymi na wstrzyknięciu nieoczekiwanych poleceń do danych wejściowych. Problem dotyczy szczególnie popularnych narzędzi do automatycznego kodowania, które coraz częściej wspierają programistów w pisaniu kodu. Atak działał na zasadzie zakamuflowania promptu w pozornie normalnym kawałku kodu, co pozwoliło zmylić model i sprawić, że wykonał nieplanowane operacje. Znaczenie tego odkrycia sięga znacznie szerzej niż sama ciekawostka badawcza - pokazuje ono, że obecne modele AI można oszukać stosunkowo prostymi technikami, zwłaszcza gdy złośliwe instrukcje trafiają do nich pośrednio, przez źródła, które wydają się godne zaufania.

Luka dotyczy przede wszystkim chain-of-thought AI - czyli systemów, które rozbijają zadania na kroki logicznego rozumowania. W takiej architekturze model może być podatny na dezinformację zawartą w danych pośrednich, ponieważ ślepo przetwarza całą zawartość wejściową, traktując ją jako integralną część problemu do rozwiązania. Gdy programista, np. korzystając z asystenta AI, wklejony kod zawierający ukrytą instrukcję, model może się nią kierować zamiast dotychczasowym poleceniem użytkownika. W praktyce oznacza to, że systemy generowania kodu mogą zostać zmuszane do wygenerowania złośliwego oprogramowania bez świadomości programisty czy właściciela projektu.

Odkrycie podkreśla rosnącą potrzebę wzmocnienia obrony przed prompt injection w całym ekosystemie narzędzi AI dla deweloperów. Firmy takie jak GitHub Copilot, OpenAI czy inne twórcy modeli muszą mieć świadomość, że ich produkty mogą być wykorzystane do dystrybucji ukrytych ataków poprzez pozornie znormalizowany kod. Badacze i zespoły bezpieczeństwa pracują nad metodami filtrowania oraz wzmacniania odporności modeli, ale problem pozostaje otwarty - każdy nowy atak pokazuje, jak wiele pracy przed branżą w kwestii bezpieczeństwa systemów opartych na dużych modelach językowych.