Anthropic wprowadza Claude Sonnet 5: Nowa granica agentycznej sztucznej inteligencji

Translated for your language. Read the original.

AI-assisted draft.

Anthropic wprowadza Claude Sonnet 5: Nowa granica agentycznej sztucznej inteligencji

In this article

Anthropic wprowadza Claude Sonnet 5: Nowa granica AI agentowej

Anthropic oficjalnie wydało Claude Sonnet 5 – potężny model zaprojektowany, aby zasypać lukę wydajnościową między średniej klasy a flagowymi seriami AI. Poprzez priorytetowe traktowanie zdolności agentowych – umiejętności korzystania z narzędzi, przeglądania sieci i realizowania złożonych planów – to wydanie sygnalizuje zwrot w stronę autonomicznych przepływów pracy AI.

Zmniejszanie dystansu do serii Opus

Najbardziej uderzającym aspektem Sonnet 5 jest to, jak blisko osiąga wydajność znacznie większego i droższego modelu Opus 4.8. W przełomowych benchmarkach Sonnet 5 udowodnił, że modele „średniej wielkości” mogą teraz podejmować się zadań, które wcześniej były zarezerwowane dla inteligencji klasy frontier.

W wielodyscyplinarnym benchmarku rozumowania, Humanity's Last Exam, Sonnet 5 uzyskał wynik 57,4% przy użyciu narzędzi, niemal zrównując się z wynikiem Opus 4.8 wynoszącym 57,9%. Co najbardziej imponujące, w benchmarku zadań opartych na wiedzy ze świata rzeczywistego GDPval-AA v2, Sonnet 5 faktycznie wyprzedził Opus 4.8, zdobywając 1618 punktów wobec 1615 punktów modelu flagowego. Sugeruje to, że w przypadku specyficznych, wymagających dużej wiedzy przepływów pracy, wydajność Sonnet 5 może przeważyć nad surową skalą serii Opus.

Ogromny skok w wydajności agentowej

Anthropic zaprojektowało Sonnet 5 specjalnie jako swój najbardziej „agentowy” model jak dotąd. Oznacza to, że model jest zoptymalizowany pod kątem interakcji ze środowiskami takimi jak przeglądarki internetowe i terminale w celu realizacji wieloetapowych celów. Dane pokazują znaczący skok w porównaniu z jego poprzednikiem, Sonnet 4.6:

SWE-bench Pro (Agentic Coding): Sonnet 5 osiągnął 63,2%, wzrastając z 58,1% w Sonnet 4.6 (ustępując Opus 4.8, który uzyskał 69,2%).
Terminal-Bench 2.1: Ogromny skok do 80,4%, w porównaniu do 67,0% dla Sonnet 4.6.
OSWorld-Verified (Computer Use): Model uzyskał wynik 81,2%, przewyższając 78,5% zarejestrowane w poprzedniej wersji.

Poruszanie się w ramach ograniczeń cyberbezpieczeństwa i bezpieczeństwa

Premiera odbywa się w wrażliwym momencie dla Anthropic, po wprowadzeniu przez rząd USA ograniczeń na modele Mythos 5 i Fable 5 ze względu na obawy dotyczące cyberbezpieczeństwa. Aby uniknąć podobnych przeszkód, Anthropic zadbało o to, by Sonnet 5 nie był trenowany na specjalistycznych zadaniach z zakresu cyberbezpieczeństwa.

Choć Sonnet 5 wykazuje nieco wyższy wskaźnik częściowej kontroli w ocenach exploitów (13,2%) niż Sonnet 4.6, pozostaje znacznie mniej zdolny do pisania exploitów programistycznych niż Opus 4.8 czy Mythos 5. Aby zminimalizować ryzyko, Anthropic domyślnie wdrożyło zabezpieczenia cybernetyczne w czasie rzeczywistym, obok ulepszonych mechanizmów obrony przed prompt injection oraz redukcji zachowań „sycophantic” (tendencji do bezkrytycznego przytakiwania błędom użytkownika).

Dostępność i „paradoks tokenów”

Claude Sonnet 5 jest już dostępny za pośrednictwem Claude Platform i API (jako claude-sonnet-5), oferując okno kontekstowe o wielkości miliona tokenów oraz datę odcięcia danych treningowych (training cutoff) ze stycznia 2026 r.

Chociaż Anthropic oferuje ceny promocyjne — 2 USD za milion tokenów wejściowych i 10 USD za milion tokenów wyjściowych do 31 sierpnia 2026 r. — programiści powinni uważać na „paradoks tokenów”. Ponieważ model ma bardziej agentyczny charakter i angażuje się w bardziej iteracyjne rozumowanie, może zużywać znacznie więcej tokenów do wykonania pojedynczego zadania w porównaniu z poprzednimi wersjami, co potencjalnie może zniwelować niższy koszt za pojedynczy token.

Kluczowe wnioski

Zrównanie wydajności: Sonnet 5 dorównuje, a nawet przewyższa flagowy model Opus 4.8 w specyficznych benchmarkach dotyczących rozumowania i pracy z wiedzą.
Koncentracja na agentowości: Model wykazuje ogromną poprawę w kodowaniu (SWE-bench) i interakcji z terminalem, co czyni go idealnym do autonomicznego korzystania z narzędzi.
Strategiczne bezpieczeństwo: Anthropic postawiło na wbudowane zabezpieczenia cybernetyczne, aby odróżnić ten model od bardziej kontrowersyjnych, wysokiego ryzyka modeli typu frontier.

Anthropic wprowadza Claude Sonnet 5: Nowa granica agentycznej sztucznej inteligencji

Anthropic wprowadza Claude Sonnet 5: Nowa granica AI agentowej

Zmniejszanie dystansu do serii Opus

Ogromny skok w wydajności agentowej

Poruszanie się w ramach ograniczeń cyberbezpieczeństwa i bezpieczeństwa

Dostępność i „paradoks tokenów”

Kluczowe wnioski

Continue reading

Claude Sonnet 5: Wysoka wydajność maskująca znaczący wzrost ceny

Anthropic wprowadza Claude Sonnet 5 i przywraca modele typu frontier

Anthropic wprowadza Claude Science, aby zrewolucjonizować odkrywanie leków

Anthropic wprowadza Claude Sonnet 5, aby zasilać przystępne cenowo agenty AI

Anthropic wprowadza Claude Science: podejście skoncentrowane na procesach pracy w badaniach nad AI