Tagihan AI Anda Bukan Masalah Model. Ini Adalah Masalah Arsitektur.
Jika biaya LLM Anda meningkat, Anda mungkin ingin beralih ke model yang lebih murah. Anda mungkin berpindah dari GPT-4 ke GPT-4-mini. Ini membantu sedikit, tetapi jarang menyelesaikan masalah yang sebenarnya.
Masalah sebenarnya adalah alur kerja (workflow) Anda. Kebanyakan orang mengarahkan setiap langkah melalui LLM. Mereka menggunakan penalaran bahasa untuk tugas-tugas yang sebenarnya tidak membutuhkannya.
Setiap alur kerja AI memiliki empat bagian:
• Trigger: Memulai pekerjaan. Biayanya mendekati nol. • Deterministic ML: Mengklasifikasikan atau memberi skor pada data. Ini murah. • LLM: Membaca, menulis, dan menalar. Ini mahal. • Tool/API: Mengambil atau menulis data. Ini murah.
Kesenjangan antara Deterministic ML dan LLM sangat besar. LLM bisa berbiaya 100x hingga 1000x lebih mahal daripada pengklasifikasi (classifier) sederhana. Jika Anda tidak memilih alat yang tepat untuk setiap langkah, Anda akan secara otomatis menggunakan yang mahal.
Perhatikan sistem tiket dukungan (support ticket system).
Sistem yang buruk mengirimkan seluruh tiket ke LLM. Ia meminta LLM untuk mengklasifikasikan maksud (intent), mengarahkan tiket, menyusun draf balasan, dan memperbarui CRM. Ini terlalu mahal. Klasifikasi tidak membutuhkan LLM. Ia hanya membutuhkan model sederhana untuk memetakan teks ke sebuah kategori.
Sistem yang lebih baik terlihat seperti ini:
- Trigger: Sebuah tiket tiba.
- Deterministic ML: Model yang cepat dan murah memutuskan apakah tiket tersebut terkait penagihan (billing), teknis, atau spam.
- LLM: Hanya digunakan untuk menyusun draf balasan bagi tiket yang valid.
- Tool/API: Sistem memperbarui CRM.
Dalam versi ini, tiket spam tidak pernah mencapai LLM. Anda berhenti membayar "pajak LLM" untuk tugas-tugas yang tidak berguna.
Jika Anda mengarahkan arsitektur Anda dengan benar, Anda dapat menghilangkan panggilan (calls) yang paling mahal bahkan sebelum Anda mengganti model.
Ikuti langkah-langkah ini untuk menurunkan biaya Anda:
- Petakan alur kerja Anda. Identifikasi langkah mana yang membutuhkan penalaran nyata dan mana yang hanya klasifikasi atau ekstraksi.
- Pindahkan langkah-langkah deterministik keluar dari prompt. Gunakan metode yang lebih cepat dan lebih murah untuk perutean (routing) dan pemberian skor.
- Batasi penggunaan LLM. Jangan menghasilkan respons untuk tugas-tugas yang tidak membutuhkannya.
- Evaluasi ukuran model terakhir. Hanya pilih model yang lebih kecil untuk langkah generasi setelah arsitektur Anda ramping.
Berhentilah berdebat tentang model mana yang paling murah per token. Mulailah membangun arsitektur yang menggunakan mesin mahal hanya saat diperlukan.
Sumber: https://dev.to/bakshiyogesh/your-ai-bill-isnt-a-model-problem-its-an-architecture-problem-1ole
Komunitas belajar opsional: https://t.me/GyaanSetuAi
