Saya Memangkas Tagihan Token Agen AI Saya Sebesar 62% dalam Satu Akhir Pekan

Agen AI saya memakan biaya $5,40 per tugas. Saya berhasil menekan biaya tersebut menjadi $2,05 per tugas hanya dalam satu akhir pekan. Saya mencapai penurunan 62% ini tanpa mengurangi kualitas.

Begini cara saya melakukannya.

Masalahnya: Agen saya menjalankan loop riset. Ia mencari di web, melakukan scraping halaman, dan menulis ringkasan. Ia menghabiskan banyak token dalam tiga cara:

  • Context stuffing: Saya mengirimkan seluruh halaman berisi 50.000 karakter ke model. Padahal saya hanya butuh 2.000 karakter. Saya membayar untuk seluruh tumpukan jerami hanya untuk menemukan satu jarum.
  • Prompt yang bertele-tele: Prompt sistem saya mengulang instruksi yang sama sebanyak tiga kali. Saya membayar model untuk membaca ulang kata-kata saya sendiri setiap saat.
  • Penggunaan model mahal yang berlebihan: Saya menggunakan model penalaran tingkat tinggi untuk tugas sederhana seperti meringkas satu paragraf.

Solusinya:

  1. Filter sebelum mengirim Alih-alih mengirim seluruh halaman, sekarang saya membagi teks menjadi potongan-potongan (chunking). Saya mencari bagian yang relevan terlebih dahulu. Kemudian, saya hanya mengirimkan bagian tersebut ke model. Hal ini menurunkan token input dari 12.500 menjadi 3.200 per halaman.

  2. Pangkas prompt sistem Saya menghapus instruksi yang redundan. Saya menghapus deskripsi alat (tool) yang sudah diketahui oleh model. Saya berhenti menggunakan kalimat klise seperti "think step-by-step" karena model modern sudah melakukan ini secara otomatis.

  3. Routing model bertingkat Saya berhenti menggunakan satu model untuk segalanya. Saya membagi tugas menjadi tiga level:

  • Ekstraksi: Gunakan model kecil yang murah.
  • Sintesis: Gunakan model penalaran tingkat tinggi.
  • Pemformatan: Gunakan model kecil yang murah.

Hasil dari pengujian 50 tugas:

  • Biaya per tugas: $5,40 menjadi $2,05
  • Latensi: 41 detik menjadi 28 detik
  • Cakupan sitasi: 67% menjadi 89%

Agennya tidak menjadi lebih pintar. Pipelinnya hanya menjadi lebih efisien.

Tiga pelajaran untuk agen produksi Anda:

  • Tetapkan anggaran token yang ketat. Hentikan tugas jika melebihi batas Anda.
  • Simpan hasil dalam cache. Jangan melakukan scraping pada URL yang sama dua kali.
  • Catat (log) semuanya. Anda harus tahu persis langkah mana yang memakan biaya paling besar.

Berhenti beralih ke model yang lebih besar saat kualitas menurun. Mulailah menggunakan model yang lebih kecil dengan konteks yang lebih ketat.

Sumber: https://dev.to/mrclaw207/i-cut-my-ai-agents-token-bill-by-62-in-one-weekend-heres-the-receipts-1fp1

Komunitas belajar opsional: https://t.me/GyaanSetuAi