Claude Sonnet 5: Performa Tinggi yang Menutupi Lonjakan Harga yang Signifikan
Rilisan terbaru Anthropic, Claude Sonnet 5, memberikan peningkatan benchmark yang mengesankan tetapi membawa beban finansial tersembunyi bagi para pengembang. Meskipun tarif token resmi tetap tidak berubah, data baru menunjukkan bahwa peningkatan verbositas dan perilaku agentic model ini secara signifikan meningkatkan biaya nyata per tugas.
Peningkatan Kecerdasan vs. Konsumsi Token
Menurut Artificial Analysis Intelligence Index v4.1, Claude Sonnet 5 telah mencapai tonggak teknis yang signifikan. Dengan skor 53 poin, model ini menempati posisi kelima secara global, imbang dengan GPT-5.5 (high) dan mengungguli pendahulunya, Sonnet 4.6, yang meraih skor 47 poin. Lonjakan performa ini terlihat jelas di beberapa benchmark khusus, termasuk kenaikan 9 poin pada Terminal-Bench v2.1 dan kenaikan 10 poin pada Humanity's Last Exam.
Namun, peningkatan kecerdasan ini harus dibayar dengan konsumsi token yang ekstrem. Dalam benchmark kerja pengetahuan berbasis agen seperti AA-Briefcase dan GDPval-AA, Sonnet 5 menjalankan loop agen kira-kira tiga kali lebih banyak daripada Sonnet 4.6. Pada pengaturan performa maksimum, model ini mengonsumsi sekitar 40% lebih banyak token output per tugas dibandingkan dengan generasi sebelumnya.
Ilusi Harga Token yang Statis
Secara sekilas, Anthropic telah mempertahankan struktur harganya: $3 per satu juta token input dan $15 per satu juta token output. Ini jauh lebih murah daripada tier Opus 4.8, yang masing-masing berbiaya $5 dan $25. Namun, "biaya per tugas" menceritakan kisah yang berbeda.
Artificial Analysis melaporkan bahwa rata-rata tugas dalam Intelligence Index berbiaya $2,29 dengan Sonnet 5, sedangkan Opus 4.8 yang lebih mahal hanya berbiaya $1,97. Bagi pengembang yang beralih dari Sonnet 4.6—yang biayanya sekitar $1,20 per tugas—perpindahan ke Sonnet 5 mewakili peningkatan biaya operasional hampir dua kali lipat. Pola ini menggemakan rilis sebelumnya, seperti Opus 4.7, di mana perubahan pada tokenizer secara efektif meningkatkan biaya hingga 37,4% meskipun tarifnya "tidak berubah".
Tekanan Kompetitif dan Kebutuhan akan Transparansi
Meskipun Sonnet 5 unggul dalam tugas-tugas agentic tertentu, model ini masih kesulitan dengan penalaran fisika tingkat tinggi. Pada benchmark CritPt dari Argonne National Labs, model ini meraih skor 17%, tertinggal di belakang pemain besar seperti GLM-5.2, Claude Fable 5, dan GPT-5.5.
Kesenjangan performa dan struktur biaya yang meningkat ini menempatkan Anthropic dalam posisi yang rentan. Karena kompetitor asal Tiongkok seperti Deepseek V4 Pro dan GLM-5.2 menawarkan performa kelas menengah yang sebanding dengan biaya yang jauh lebih murah, kenaikan harga "tersembunyi" dari keluarga Claude menjadi faktor kritis bagi adopsi perusahaan. Industri sedang bergerak menuju kebutuhan akan metrik yang lebih transparan—seperti biaya per tugas terstandarisasi—daripada hanya mengandalkan jumlah token mentah yang tidak lagi mencerminkan beban komputasi aktual dari alur kerja agentic.
Poin-Poin Penting
- Peningkatan Biaya Tersembunyi: Meskipun tarif tokennya identik, Sonnet 5 sekitar 90% lebih mahal per tugas dibandingkan Sonnet 4.6 karena peningkatan konsumsi token.
- Performa Benchmark: Sonnet 5 menempati peringkat ke-5 secara global dengan 53 poin, menunjukkan peningkatan masif dalam loop agentic dan benchmark khusus seperti SciCode dan Terminal-Bench.
- Disparitas Harga: Sonnet 5 yang "lebih murah" sebenarnya memakan biaya lebih besar per tugas ($2,29) daripada Opus 4.8 premium ($1,97) jika diukur dengan benchmark kecerdasan dunia nyata.
