Thinking Tokens Mendorong Biaya Inferensi Tersembunyi
Thinking tokens menciptakan pajak tersembunyi bagi pengembang AI.
OpenAI, Anthropic, dan Google mengenakan biaya untuk thinking tokens dengan tarif output. Hal ini meningkatkan biaya sebesar 5 hingga 10 kali lipat dalam pipeline agentic. Sebagian besar pengembang berasumsi bahwa token ini gratis atau murah. Kenyataannya tidak.
Pipeline agentic memperburuk masalah ini. Agen sering kali mencoba kembali (retry) langkah yang gagal. Setiap pengulangan menghasilkan ratusan thinking tokens baru. Satu siklus perceive, reason, act, dan observe dapat menyebabkan beberapa kali pengulangan.
Perhitungannya berbahaya bagi margin Anda: • Sebuah tugas dengan 3 hingga 5 pengulangan memakan biaya $0,10 hingga $0,50 dalam bentuk token tersembunyi. • Sebuah pipeline dengan 10.000 tugas per hari memakan biaya tambahan sebesar $5.000 hingga $25.000. • Sebuah startup yang menghabiskan $10.000 untuk API mungkin harus membayar $5.000 hanya untuk thinking tokens saja.
Perang harga besar-besaran sedang dimulai. Google berencana memangkas harga model reasoning Gemini sebesar 80%. Ini menunjukkan adanya kesenjangan antara raksasa teknologi dan startup. Google mampu menanggung kerugian pada token karena mereka menginvestasikan miliaran untuk komputasi. Startup tidak bisa.
Asimetri ini menguntungkan penyedia besar. Perusahaan yang lebih kecil kesulitan untuk menyerap biaya-biaya ini. Bahkan Microsoft mulai beralih ke penetapan harga berbasis penggunaan (usage-based pricing) dan mencari alternatif yang lebih murah seperti DeepSeek V4 untuk mengelola biaya.
Perhatikan dua hal ini: • Harga resmi Gemini dari Google pada Q3 2026. • Respons OpenAI terhadap penetapan harga bertingkat (tiered pricing) untuk thinking tokens.
Kelola penggunaan token Anda sekarang atau saksikan margin Anda menghilang.
Sumber: https://pub.towardsai.net
Komunitas pembelajaran opsional: https://t.me/GyaanSetuAi