𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗕𝘂𝗿𝗻𝗶𝗻𝗴 𝗧𝗼𝗸𝗲𝗻𝘀

You deployed a coding agent. It pulls tickets and files PRs. It works well.

Then the bill arrives.

The agent spent more money than you planned. You do not know why. It hits the model 50 times per ticket. Some calls are slow retries. Some are redundant reads of the same context.

This is not a model issue. It is an infrastructure issue. Your team lacks visibility into spending. You have no way to stop a runaway agent before it burns your budget.

Agents are loops. They read a task, call a tool, read the output, and repeat. Each step costs tokens. If an agent re-reads a system prompt on every turn, the cost grows fast. A small bug leads to hundreds of extra reads.

You see the bill, not the calls. This is too late.

Successful teams build cost controls from day one. They use these methods:

To run agents in production, you need:

If you miss these, you run blind.

LiteLLM uses a specific pattern to avoid this:

If you build agents without these tools, you face a cost explosion. The agent works fine until it hits an edge case or a loop. By then, the money is gone.

Take these steps now:

Build infrastructure that separates reliable agents from expensive mistakes.

Mengapa ejen anda membakar token secara senyap dan cara untuk menghentikannya

Jika anda pernah membina ejen LLM (Large Language Model), anda pasti pernah mengalami situasi di mana kos penggunaan API anda melonjak dengan mendadak tanpa alasan yang jelas. Anda telah menetapkan arahan yang betul, alatan (tools) berfungsi dengan baik, dan ejen anda mencapai matlamatnya—tetapi bil anda menunjukkan penggunaan token yang sangat tinggi.

Masalahnya ialah ejen anda sedang "membakar" token secara senyap.

Dalam aliran kerja agentic, setiap interaksi, setiap pemikiran, dan setiap panggilan alatan menyumbang kepada jumlah token yang digunakan. Jika tidak dikawal, pembaziran ini boleh menjadi sangat besar.

Berikut adalah sebab utama mengapa ejen anda membakar token secara berlebihan dan cara untuk menghentikannya.

1. Prompt Sistem yang Terlampau Panjang (Verbose)

Prompt sistem adalah asas kepada tingkah laku ejen anda. Walau bagaimanapun, terdapat kecenderungan untuk menulis prompt sistem yang sangat panjang, penuh dengan arahan yang berulang-ulang dan penjelasan yang tidak perlu.

Setiap kali ejen membuat panggilan (call) baru, seluruh prompt sistem ini dihantar semula ke model. Jika prompt sistem anda mempunyai 2,000 token, dan ejen anda melakukan 10 langkah untuk menyelesaikan tugasan, anda telah membazirkan 20,000 token hanya untuk arahan asas tersebut.

Cara Menghentikannya:

2. Definisi Alatan (Tool Definitions) yang Terlampau Terperinci

Apabila anda memberikan alatan kepada ejen, anda perlu menerangkan apa yang alatan itu lakukan. Masalah timbul apabila penerangan ini menjadi terlalu panjang lebar.

Setiap kali ejen mempertimbangkan untuk menggunakan alatan, definisi alatan tersebut dimasukkan ke dalam konteks. Jika anda mempunyai 20 alatan dan setiap satu mempunyai penerangan sepanjang 500 token, anda telah memenuhkan tetingkap konteks (context window) anda dengan teks yang mungkin tidak relevan untuk tugasan semasa.

Cara Menghentikannya:

3. Gelung Penaakulan (Reasoning Loops) yang Tidak Berakhir

Ejen sering menggunakan corak "Thought-Action-Observation" (Pemikiran-Tindakan-Pemerhatian). Walaupun ini sangat berkesan untuk menyelesaikan masalah kompleks, ia juga boleh menyebabkan ejen terperangkap dalam gelung (loop) yang tidak produktif.

Ejen mungkin mencuba alatan yang sama berulang kali dengan parameter yang hampir sama, atau berfikir secara berlebihan tentang masalah yang sebenarnya sudah selesai. Setiap pusingan gelung ini menambah jumlah token secara eksponen.

Cara Menghentikannya:

4. Output yang Tidak Berstruktur dan Berlebihan

Kadangkala, ejen cenderung untuk memberikan jawapan yang terlalu panjang lebar atau memberikan penjelasan yang tidak diminta selepas setiap tindakan. Walaupun ini nampak mesra pengguna, ia adalah pembaziran token yang besar jika ejen tersebut berfungsi di belakang tabir (backend).

Cara Menghentikannya:

Kesimpulan

Mengoptimumkan penggunaan token bukan sekadar tentang menjimatkan wang; ia juga tentang meningkatkan kelajuan (latency) dan kecekapan ejen anda. Dengan mengecilkan prompt sistem, meringkaskan definisi alatan, mengawal gelung penaakulan, dan mengehadkan output, anda boleh membina ejen yang lebih pantas, lebih bijak, dan jauh lebih kos efektif.

Ingat, dalam dunia LLM, setiap token mempunyai harga. Jangan biarkan ejen anda membakarnya tanpa tujuan.