Cara Menggunakan LLM Tanpa Menguras Anggaran Anda
Membuat demo AI itu mudah. Anda mendapatkan kunci API, menulis prompt, dan itu berhasil.
Namun, merilisnya ke pengguna asli itu berbeda. Trafik datang dan biaya Anda melonjak. Latensi Anda meningkat. Tim keuangan Anda mulai bertanya-tanya.
Celah antara demo dan produk nyata adalah rekayasa (engineering). Anda harus mengelola biaya dan kecepatan.
Kendalikan output Anda untuk menghemat uang
Sebagian besar API mengenakan biaya per token. Mereka menagih apa yang Anda kirim dan apa yang mereka kirim kembali. Token output lebih mahal daripada token input.
Jangan hanya memangkas prompt Anda. Fokuslah pada jawabannya. • Minta format JSON. • Minta satu kalimat saja. • Tetapkan batas token maksimum. • Perintahkan model untuk menjawab secara singkat.
Jawaban singkat lebih murah dan lebih cepat.
Kurangi jumlah panggilan (calls)
Panggilan termurah adalah panggilan yang tidak pernah Anda lakukan.
- Gunakan caching. Banyak pengguna menanyakan pertanyaan yang sama. Cache mengubah panggilan API yang lambat menjadi pencarian (lookup) yang cepat.
- Gunakan router. Anda tidak memerlukan model besar untuk setiap tugas. Gunakan model kecil yang murah untuk pekerjaan mudah. Gunakan model mahal hanya untuk tugas yang sulit.
Tingkatkan pengalaman pengguna
Terkadang Anda tidak bisa membuat model menjadi lebih cepat. Anda bisa membuatnya terasa lebih cepat.
- Stream respons. Tampilkan teks saat sedang dibuat. Pengguna dapat mulai membaca segera. Ini membuat waktu tunggu terasa lebih singkat.
- Tunjukkan progres. Jika pekerjaan membutuhkan beberapa langkah, beri tahu pengguna. Gunakan pesan seperti "Mencari dokumen..." alih-alih hanya menampilkan spinner pemuatan yang kosong.
Kelola permintaan (requests) yang lambat
Beberapa permintaan yang sangat lambat dapat merusak produk Anda. Jangan biarkan mereka menggantung (hang).
- Tetapkan timeout yang ketat. Putuskan apa yang terjadi jika sebuah permintaan memakan waktu terlalu lama.
- Gunakan retry dengan batasan. Jangan melakukan retry selamanya.
- Gunakan circuit breaker. Jika penyedia layanan sedang down, hentikan pengiriman permintaan dan tampilkan fallback.
Pantau data Anda
Anda tidak bisa memperbaiki apa yang tidak Anda ukur. Catat (log) tiga hal ini untuk setiap permintaan: • Token input • Token output • Total latensi
Pantau hal-hal ini berdasarkan fitur. Anda kemungkinan besar akan menemukan satu fitur spesifik yang menyebabkan sebagian besar biaya Anda.
Berhentilah menganggap model sebagai keajaiban. Perlakukan ia sebagai dependensi yang lambat dan mahal yang harus Anda kelola.
