Organizacje zajmujące się pomiarem i badaniem AI - METR i Epoch - opublikowały wyniki benchmarku MirrorCode, który ujawnia zadziwiające zdolności współczesnych modeli do reverse engineeringu i reimplementacji złożonego oprogramowania.
Benchmark testuje agentów AI na ponad 20 programach Command-Line, od narzędzi Unixowych, przez biblioteki do serializacji danych, aż po interpretery i oprogramowanie do analiz statycznych oraz kryptografii. Każde zadanie polega na dokładnym przeanalizowaniu działającego programu i jego odtworzeniu bez dostępu do kodu źródłowego - agent ma jedynie dostęp do pliku wykonywalnego i zestawu testów. Claude Opus 4.6 triumfował w wielu zadaniach, z imponującym sukcesem w reimplementacji gotree, bioinformatycznego narzędzia napisanego w Go z około 16 tysiącami linii kodu i ponad 40 zależnościami.
Wyniki MirrorCode mają znaczące implikacje dla naszego rozumienia tempa postępu AI. Rzecz w tym, że te modele radzą sobie z zadaniami, które wymagają rozumienia całej architektury programu, analizy wymagań funkcjonalnych i umiejętności kodowania na poziomie produkcyjnym. To sugeruje, że capacities współczesnych AI mogą być znacznie niedoceniane, a przyspieszenie w długoterminowych możliwościach agentów AI może być szybsze niż wcześniej przewidywano. Dla branży oprogramowania oznacza to zarówno potencjał dla automatyzacji skomplikowanych zadań technicznych, jak i rosnące wyzwania dotyczące bezpieczeństwa i niezawodności systemów programistycznych.