Mierzenie zaufania między agentami AI: formacja, ruptura i regeneracja

Zespół badaczy zaproponował pierwszy standardowy sposób mierzenia zaufania między agentami AI. Opracowali behawioralny test oparty na zasadzie kosztownej weryfikacji: w grze survival agenci muszą decydować, czy sprawdzać pracę kolegów (co pochłania zasoby), czy im zaufać (przy ryzyku śmiertelnego błędu). Zmniejszenie weryfikacji względem wersji bez pamięci modelu stanowi mierzalny wskaźnik zaufania.

Badania obejmowały sześć snapshottów czołowych modeli. Cztery zaawansowane modele (Claude Opus 4.6, Claude Sonnet 4.6, GPT-5.1, Gemini 3.1 Pro) zmniejszyły weryfikację o 60-85% gdy pracowały z niezawodnym partnerem, podczas gdy mniejsze wersje nie wykazały takiej adaptacji. Kluczowa obserwacja: modele różnią się dramaturicznie w reagowaniu na błędy. Niektóre skupiają zwiększoną czujność tylko na zawodzącym agencie, inne stają się bardziej ostrożne wobec całego zespołu.

Odbudowa zaufania przebiega wolniej niż jego formacja, a zgrupowane porażki utrzymują podejrzliwość znacznie dłużej niż ta sama liczba błędów rozłożonych w czasie. Te różnice mają praktyczne konsekwencje: modele szybko nawiązujące zaufanie weryfikują mniej, podejmują decyzje szybciej i osiągają wyższe wyniki w środowisku testowym. Natomiast nadmierna i utrzymująca się weryfikacja wiąże się z paraliżem decyzyjnym, a nie bezpieczeństwem. Wyniki sugerują, że dyspozycje do zaufania można zmierzyć przed wdrożeniem systemów wieloagentowych.