Cara Meletakkan LLM dalam Produk Anda Tanpa Menjejaskan Kos atau Latensi

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialminggu lalu2min read

Cara Meletakkan LLM dalam Produk Anda Tanpa Merosakkan Kos atau Latensi

Demo AI mudah dibina. Anda dapat kunci API, tulis prom, dan tunjukkannya kepada pasukan anda.

Kemudian anda melancarkannya. Trafik mula masuk. Kos anda melonjak dan latensi anda meningkat mendadak.

Beralih daripada demo kepada produk sebenar memerlukan kejuruteraan kos dan latensi. Berikut adalah caranya.

Kawal output anda

Kebanyakan API mengenakan caj mengikut token. Token output lebih mahal daripada token input.

Ramai orang meluangkan masa untuk memendekkan prom tetapi membiarkan model bercakap meleret-leret. Ini adalah satu kesilapan.

Untuk menjimatkan wang dan masa, hadkan output:

Jawapan pendek adalah lebih pantas dan lebih murah.

Berhenti membuat panggilan yang tidak perlu

Cara terbaik untuk menjimatkan kos adalah dengan tidak memanggil model tersebut langsung.

Gunakan caching: Simpan respons untuk soalan lazim. Cache semantik boleh membantu jika soalan-soalan tersebut serupa tetapi tidak serupa sepenuhnya.
Gunakan routing: Jangan gunakan model terbaik anda untuk tugasan mudah. Gunakan model kecil yang murah untuk klasifikasi. Simpan model yang mahal untuk kerja yang kompleks.

Tingkatkan pengalaman pengguna

Jika respons mengambil masa, jadikannya terasa pantas.

Stream token: Paparkan perkataan semasa ia dijana. Ini mengurangkan masa menunggu yang dirasai.
Tunjukkan kemajuan: Jika tugasan mempunyai beberapa langkah, beritahu pengguna apa yang sedang berlaku. Gunakan teks seperti "Mencari dokumen..." dan bukannya pemutar (spinner) yang senyap.

Uruskan latensi "tail"

Sesetengah permintaan akan sentiasa lambat. Jangan biarkan ia merosakkan produk anda.

Tetapkan timeout: Tentukan apa yang berlaku jika permintaan tergantung. Gunakan fallback atau model yang lebih kecil.
Gunakan retries: Tambah retries untuk ralat kecil, tetapi hadkan jumlahnya.
Gunakan circuit breakers: Jika penyedia (provider) tergendala, berhenti menghantar permintaan dengan segera untuk mengelakkan menunggu lama.

Jejak data anda

Anda tidak boleh membaiki apa yang anda tidak ukur. Log tiga nombor ini untuk setiap permintaan:

Lihat kos bagi setiap hasil pengguna yang berjaya. Ciri yang berfungsi adalah lebih baik daripada ciri murah yang gagal.

Berhenti menganggap LLM sebagai sesuatu yang ajaib. Anggap ia sebagai kebergantungan (dependency) yang lambat dan mahal yang mesti anda uruskan.

Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

Continue reading