Anthropic Melancarkan Claude Sonnet 5: Sempadan Baharu AI Agentik
Anthropic telah melancarkan Claude Sonnet 5 secara rasmi, sebuah model berkuasa tinggi yang direka untuk merapatkan jurang prestasi antara siri AI tahap pertengahan dan flagship. Dengan mengutamakan keupayaan agentik—iaitu kebolehan menggunakan alatan, melayari web, dan melaksanakan pelan yang kompleks—pelancaran ini menandakan peralihan ke arah aliran kerja AI autonomi.
Merapatkan Jurang dengan Siri Opus
Aspek yang paling ketara tentang Sonnet 5 adalah betapa hampirnya ia dengan prestasi Opus 4.8 yang jauh lebih besar dan lebih mahal. Dalam penanda aras yang memecah tradisi, Sonnet 5 telah menunjukkan bahawa model "saiz sederhana" kini boleh menangani tugas yang sebelum ini dikhaskan untuk kecerdasan kelas frontier.
Dalam penanda aras penaakulan pelbagai disiplin, Humanity's Last Exam, Sonnet 5 mencapai skor 57.4% menggunakan alatan, hampir menyamai skor Opus 4.8 iaitu 57.9%. Apa yang paling mengagumkan, dalam penanda aras tugas pengetahuan dunia nyata GDPval-AA v2, Sonnet 5 sebenarnya telah mengatasi Opus 4.8, dengan skor 1,618 berbanding 1,615 bagi model flagship tersebut. Ini menunjukkan bahawa untuk aliran kerja khusus yang padat dengan pengetahuan, kecekapan Sonnet 5 mungkin mengatasi skala mentah siri Opus.
Lonjakan Besar dalam Prestasi Agentik
Anthropic telah mereka bentuk Sonnet 5 secara khusus untuk menjadi modelnya yang paling "agentik" setakat ini. Ini bermakna model ini dioptimumkan untuk berinteraksi dengan persekitaran seperti pelayar web dan terminal bagi melengkapkan objektif pelbagai langkah. Data menunjukkan lonjakan ketara berbanding pendahulunya, Sonnet 4.6:
- SWE-bench Pro (Agentic Coding): Sonnet 5 mencapai 63.2%, meningkat daripada 58.1% dalam Sonnet 4.6 (ketinggalan di belakang Opus 4.8 pada 69.2%).
- Terminal-Bench 2.1: Lonjakan besar kepada 80.4%, berbanding 67.0% untuk Sonnet 4.6.
- OSWorld-Verified (Computer Use): Model ini mencatatkan skor 81.2%, mengatasi 78.5% yang direkodkan oleh versi sebelumnya.
Menangani Kekangan Keselamatan Siber dan Keselamatan
Pelancaran ini berlaku pada masa yang sensitif bagi Anthropic, susulan sekatan kerajaan AS terhadap model Mythos 5 dan Fable 5 mereka disebabkan kebimbangan keselamatan siber. Bagi mengelakkan halangan yang sama, Anthropic telah memastikan Sonnet 5 tidak dilatih menggunakan tugas keselamatan siber yang khusus.
Walaupun Sonnet 5 menunjukkan kadar kawalan separa yang sedikit lebih tinggi dalam penilaian eksploitasi (13.2%) berbanding Sonnet 4.6, ia kekal jauh kurang berkemampuan berbanding Opus 4.8 atau Mythos 5 dalam menulis eksploitasi perisian. Untuk mengurangkan risiko, Anthropic telah melaksanakan perlindungan siber masa nyata secara lalai, di samping pertahanan yang dipertingkatkan terhadap suntikan arahan (prompt injection) dan pengurangan tingkah laku "sycophantic" (kecenderungan untuk sekadar bersetuju dengan kesilapan pengguna).
Ketersediaan dan "Paradoks Token"
Claude Sonnet 5 kini tersedia melalui Claude Platform dan API (sebagai claude-sonnet-5), menampilkan tetingkap konteks satu juta token dan tarikh akhir latihan pada Januari 2026.
Walaupun Anthropic menawarkan harga pengenalan—$2 bagi setiap satu juta token input dan $10 bagi setiap satu juta token output sehingga 31 Ogos 2026—pembangun harus berwaspada terhadap "paradoks token." Oleh kerana model ini lebih agentik dan terlibat dalam penaakulan yang lebih berulang, ia mungkin menggunakan token yang jauh lebih banyak untuk melengkapkan satu tugas berbanding versi sebelumnya, yang berpotensi mengimbangi kos per-token yang lebih rendah.
Ringkasan Utama
- Kesetaraan Prestasi: Sonnet 5 menyamai atau malah mengatasi model flagship Opus 4.8 dalam penanda aras khusus bagi kerja penaakulan dan pengetahuan.
- Fokus Agentik: Model ini menunjukkan peningkatan besar dalam pengekodan (SWE-bench) dan interaksi terminal, menjadikannya ideal untuk penggunaan alatan secara autonomi.
- Keselamatan Strategik: Anthropic telah mengutamakan perlindungan siber terbina dalam untuk membezakan model ini daripada model frontier yang lebih kontroversi dan berisiko tinggi.
