Claude Sonnet 5 vs Sonnet 4.6 vs Opus 4.8: benchmarki agentyczne, cennik API i porównanie wydajności

Anthropic właśnie udostępnił Claude Sonnet 5, który ma być najbardziej agentycznym modelem w serii Sonnet. Nowy model potrafi planować zadania, sterować przeglądarkami i terminalami oraz działać autonomicznie przez długie łańcuchy zadań, co stanowi znaczną zmianę w porównaniu z poprzednimi wersjami.

Sonnet 5 oferuje solidne wyniki benchmarkowe. Osiąga 63,2 proc. na SWE-bench Pro, 81,2 proc. na OSWorld-Verified i 57,4 proc. na HLE, co oznacza wyraźne przeskoczenie Sonnet 4.6 we wszystkich opublikowanych testach. Model wprowadza też nową funkcję - exposure levels (low, medium, high, xhigh), które pozwalają dostosować ilość tokenów przeznaczonych na reasoning, wpływając na jakość i koszt. Sonnet 5 zamyka znaczną część luki w stosunku do flagowego Opus 4.8, choć dla zadań wymagających bardzo wysokiego effortu (xhigh) może okazać się droższy przy podobnej jakości.

Cenowo Sonnet 5 to solidna propozycja dla większości przypadków użycia. Introductory pricing wynosi $2/$10 per MTok do 31 sierpnia, a następnie wzrasta do $3/$15, co daje mu znaczną przewagę nad Opus 4.8 ($5/$25). Model jest już domyślnym wyborem dla Free i Pro planów użytkowników i dostępny w Claude Code oraz na platformie Claude. Anthropic celowo zmniejszył możliwości Sonnet 5 w cyberbezpieczeństwie, zachowując Opus 4.8 dla pracy wymagającej maksymalnej dokładności.