Anthropic wprowadza Claude Sonnet 5: Nowa granica AI agentowej
Anthropic oficjalnie wydało Claude Sonnet 5 – potężny model zaprojektowany, aby zasypać lukę wydajnościową między średniej klasy a flagowymi seriami AI. Poprzez priorytetowe traktowanie zdolności agentowych – umiejętności korzystania z narzędzi, przeglądania sieci i realizowania złożonych planów – to wydanie sygnalizuje zwrot w stronę autonomicznych przepływów pracy AI.
Zmniejszanie dystansu do serii Opus
Najbardziej uderzającym aspektem Sonnet 5 jest to, jak blisko osiąga wydajność znacznie większego i droższego modelu Opus 4.8. W przełomowych benchmarkach Sonnet 5 udowodnił, że modele „średniej wielkości” mogą teraz podejmować się zadań, które wcześniej były zarezerwowane dla inteligencji klasy frontier.
W wielodyscyplinarnym benchmarku rozumowania, Humanity's Last Exam, Sonnet 5 uzyskał wynik 57,4% przy użyciu narzędzi, niemal zrównując się z wynikiem Opus 4.8 wynoszącym 57,9%. Co najbardziej imponujące, w benchmarku zadań opartych na wiedzy ze świata rzeczywistego GDPval-AA v2, Sonnet 5 faktycznie wyprzedził Opus 4.8, zdobywając 1618 punktów wobec 1615 punktów modelu flagowego. Sugeruje to, że w przypadku specyficznych, wymagających dużej wiedzy przepływów pracy, wydajność Sonnet 5 może przeważyć nad surową skalą serii Opus.
Ogromny skok w wydajności agentowej
Anthropic zaprojektowało Sonnet 5 specjalnie jako swój najbardziej „agentowy” model jak dotąd. Oznacza to, że model jest zoptymalizowany pod kątem interakcji ze środowiskami takimi jak przeglądarki internetowe i terminale w celu realizacji wieloetapowych celów. Dane pokazują znaczący skok w porównaniu z jego poprzednikiem, Sonnet 4.6:
- SWE-bench Pro (Agentic Coding): Sonnet 5 osiągnął 63,2%, wzrastając z 58,1% w Sonnet 4.6 (ustępując Opus 4.8, który uzyskał 69,2%).
- Terminal-Bench 2.1: Ogromny skok do 80,4%, w porównaniu do 67,0% dla Sonnet 4.6.
- OSWorld-Verified (Computer Use): Model uzyskał wynik 81,2%, przewyższając 78,5% zarejestrowane w poprzedniej wersji.
Poruszanie się w ramach ograniczeń cyberbezpieczeństwa i bezpieczeństwa
Premiera odbywa się w wrażliwym momencie dla Anthropic, po wprowadzeniu przez rząd USA ograniczeń na modele Mythos 5 i Fable 5 ze względu na obawy dotyczące cyberbezpieczeństwa. Aby uniknąć podobnych przeszkód, Anthropic zadbało o to, by Sonnet 5 nie był trenowany na specjalistycznych zadaniach z zakresu cyberbezpieczeństwa.
Choć Sonnet 5 wykazuje nieco wyższy wskaźnik częściowej kontroli w ocenach exploitów (13,2%) niż Sonnet 4.6, pozostaje znacznie mniej zdolny do pisania exploitów programistycznych niż Opus 4.8 czy Mythos 5. Aby zminimalizować ryzyko, Anthropic domyślnie wdrożyło zabezpieczenia cybernetyczne w czasie rzeczywistym, obok ulepszonych mechanizmów obrony przed prompt injection oraz redukcji zachowań „sycophantic” (tendencji do bezkrytycznego przytakiwania błędom użytkownika).
Dostępność i „paradoks tokenów”
Claude Sonnet 5 jest już dostępny za pośrednictwem Claude Platform i API (jako claude-sonnet-5), oferując okno kontekstowe o wielkości miliona tokenów oraz datę odcięcia danych treningowych (training cutoff) ze stycznia 2026 r.
Chociaż Anthropic oferuje ceny promocyjne — 2 USD za milion tokenów wejściowych i 10 USD za milion tokenów wyjściowych do 31 sierpnia 2026 r. — programiści powinni uważać na „paradoks tokenów”. Ponieważ model ma bardziej agentyczny charakter i angażuje się w bardziej iteracyjne rozumowanie, może zużywać znacznie więcej tokenów do wykonania pojedynczego zadania w porównaniu z poprzednimi wersjami, co potencjalnie może zniwelować niższy koszt za pojedynczy token.
Kluczowe wnioski
- Zrównanie wydajności: Sonnet 5 dorównuje, a nawet przewyższa flagowy model Opus 4.8 w specyficznych benchmarkach dotyczących rozumowania i pracy z wiedzą.
- Koncentracja na agentowości: Model wykazuje ogromną poprawę w kodowaniu (SWE-bench) i interakcji z terminalem, co czyni go idealnym do autonomicznego korzystania z narzędzi.
- Strategiczne bezpieczeństwo: Anthropic postawiło na wbudowane zabezpieczenia cybernetyczne, aby odróżnić ten model od bardziej kontrowersyjnych, wysokiego ryzyka modeli typu frontier.
