Anthropic Meluncurkan Claude Sonnet 5: Batas Baru AI Agentic
Anthropic telah resmi merilis Claude Sonnet 5, sebuah model tangguh yang dirancang untuk menjembatani kesenjangan performa antara seri AI kelas menengah dan flagship. Dengan memprioritaskan kemampuan agentic—kemampuan untuk menggunakan alat, menjelajah, dan mengeksekusi rencana yang kompleks—rilis ini menandakan pergeseran menuju alur kerja AI otonom.
Menutup Celah dengan Seri Opus
Aspek yang paling mencolok dari Sonnet 5 adalah betapa dekatnya performa model ini dengan Opus 4.8 yang jauh lebih besar dan lebih mahal. Dalam tolok ukur (benchmark) yang inovatif, Sonnet 5 telah menunjukkan bahwa model "berukuran menengah" kini dapat menangani tugas-tugas yang sebelumnya hanya diperuntukkan bagi kecerdasan kelas frontier.
Pada benchmark penalaran multidisiplin, Humanity's Last Exam, Sonnet 5 mencapai skor 57,4% menggunakan alat, hampir menyamai skor Opus 4.8 sebesar 57,9%. Yang paling mengesankan, pada benchmark tugas pengetahuan dunia nyata GDPval-AA v2, Sonnet 5 justru melampaui Opus 4.8, dengan skor 1.618 poin dibandingkan 1.615 poin milik model flagship tersebut. Hal ini menunjukkan bahwa untuk alur kerja spesifik yang padat pengetahuan, efisiensi Sonnet 5 mungkin lebih unggul daripada skala mentah dari seri Opus.
Lompatan Besar dalam Performa Agentic
Anthropic telah merekayasa Sonnet 5 secara khusus agar menjadi modelnya yang paling "agentic" hingga saat ini. Ini berarti model tersebut dioptimalkan untuk berinteraksi dengan lingkungan seperti browser web dan terminal guna menyelesaikan tujuan multi-langkah. Data menunjukkan lonjakan signifikan dibandingkan pendahulunya, Sonnet 4.6:
- SWE-bench Pro (Agentic Coding): Sonnet 5 mencapai 63,2%, naik dari 58,1% pada Sonnet 4.6 (tertinggal dari Opus 4.8 yang mencapai 69,2%).
- Terminal-Bench 2.1: Lompatan besar ke 80,4%, dibandingkan dengan 67,0% untuk Sonnet 4.6.
- OSWorld-Verified (Computer Use): Model ini mencetak skor 81,2%, melampaui 78,5% yang dicatat oleh versi sebelumnya.
Menavigasi Kendala Keamanan Siber dan Keselamatan
Peluncuran ini terjadi di waktu yang sensitif bagi Anthropic, menyusul pembatasan pemerintah AS terhadap model Mythos 5 dan Fable 5 mereka karena kekhawatiran keamanan siber. Untuk menghindari hambatan serupa, Anthropic telah memastikan bahwa Sonnet 5 tidak dilatih pada tugas-tugas keamanan siber khusus.
Meskipun Sonnet 5 menunjukkan tingkat kontrol parsial yang sedikit lebih tinggi dalam evaluasi eksploitasi (13,2%) dibandingkan Sonnet 4.6, model ini tetap jauh lebih tidak mampu dibandingkan Opus 4.8 atau Mythos 5 dalam menulis eksploitasi perangkat lunak. Untuk memitigasi risiko, Anthropic telah menerapkan perlindungan siber waktu nyata (real-time) secara default, bersama dengan pertahanan yang ditingkatkan terhadap injeksi prompt dan pengurangan perilaku "sycophantic" (kecenderungan untuk sekadar menyetujui kesalahan pengguna).
Ketersediaan dan "Paradoks Token"
Claude Sonnet 5 kini tersedia melalui Claude Platform dan API (sebagai claude-sonnet-5), dengan jendela konteks satu juta token dan batas pengetahuan (training cutoff) Januari 2026.
Meskipun Anthropic menawarkan harga perkenalan—$2 per satu juta token input dan $10 per satu juta token output hingga 31 Agustus 2026—pengembang harus mewaspadai "paradoks token." Karena model ini lebih agentic dan terlibat dalam penalaran yang lebih iteratif, ia mungkin mengonsumsi token yang jauh lebih banyak untuk menyelesaikan satu tugas dibandingkan versi sebelumnya, yang berpotensi meniadakan biaya per token yang lebih rendah tersebut.
Poin-Poin Penting
- Paritas Performa: Sonnet 5 menyamai atau bahkan mengalahkan model flagship Opus 4.8 dalam benchmark penalaran dan pekerjaan pengetahuan tertentu.
- Fokus Agentic: Model ini menunjukkan peningkatan masif dalam pengodean (SWE-bench) dan interaksi terminal, menjadikannya ideal untuk penggunaan alat secara otonom.
- Keamanan Strategis: Anthropic telah memprioritaskan perlindungan siber bawaan untuk membedakan model ini dari model frontier yang lebih kontroversial dan berisiko tinggi.
