Cara Meletakkan LLM dalam Produk Anda Tanpa Merosakkan Kos atau Latensi
Demo AI mudah dibina. Anda dapat kunci API, tulis prom, dan tunjukkannya kepada pasukan anda.
Kemudian anda melancarkannya. Trafik mula masuk. Kos anda melonjak dan latensi anda meningkat mendadak.
Beralih daripada demo kepada produk sebenar memerlukan kejuruteraan kos dan latensi. Berikut adalah caranya.
Kawal output anda
Kebanyakan API mengenakan caj mengikut token. Token output lebih mahal daripada token input.
Ramai orang meluangkan masa untuk memendekkan prom tetapi membiarkan model bercakap meleret-leret. Ini adalah satu kesilapan.
Untuk menjimatkan wang dan masa, hadkan output:
- Minta JSON.
- Minta satu ayat sahaja.
- Tetapkan had max_tokens.
- Beritahu model supaya ringkas.
Jawapan pendek adalah lebih pantas dan lebih murah.
Berhenti membuat panggilan yang tidak perlu
Cara terbaik untuk menjimatkan kos adalah dengan tidak memanggil model tersebut langsung.
- Gunakan caching: Simpan respons untuk soalan lazim. Cache semantik boleh membantu jika soalan-soalan tersebut serupa tetapi tidak serupa sepenuhnya.
- Gunakan routing: Jangan gunakan model terbaik anda untuk tugasan mudah. Gunakan model kecil yang murah untuk klasifikasi. Simpan model yang mahal untuk kerja yang kompleks.
Tingkatkan pengalaman pengguna
Jika respons mengambil masa, jadikannya terasa pantas.
- Stream token: Paparkan perkataan semasa ia dijana. Ini mengurangkan masa menunggu yang dirasai.
- Tunjukkan kemajuan: Jika tugasan mempunyai beberapa langkah, beritahu pengguna apa yang sedang berlaku. Gunakan teks seperti "Mencari dokumen..." dan bukannya pemutar (spinner) yang senyap.
Uruskan latensi "tail"
Sesetengah permintaan akan sentiasa lambat. Jangan biarkan ia merosakkan produk anda.
- Tetapkan timeout: Tentukan apa yang berlaku jika permintaan tergantung. Gunakan fallback atau model yang lebih kecil.
- Gunakan retries: Tambah retries untuk ralat kecil, tetapi hadkan jumlahnya.
- Gunakan circuit breakers: Jika penyedia (provider) tergendala, berhenti menghantar permintaan dengan segera untuk mengelakkan menunggu lama.
Jejak data anda
Anda tidak boleh membaiki apa yang anda tidak ukur. Log tiga nombor ini untuk setiap permintaan:
- Token input.
- Token output.
- Jumlah latensi.
Lihat kos bagi setiap hasil pengguna yang berjaya. Ciri yang berfungsi adalah lebih baik daripada ciri murah yang gagal.
Berhenti menganggap LLM sebagai sesuatu yang ajaib. Anggap ia sebagai kebergantungan (dependency) yang lambat dan mahal yang mesti anda uruskan.
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi
