𝗠𝗼𝗱𝗲𝗹 𝗥𝗼𝘂𝘁𝗶𝗻𝗴: 𝗕𝗲𝗿𝗵𝗲𝗻𝘁𝗶 𝗠𝗲𝗻𝗴𝗴𝘂𝗻𝗮𝗸𝗮𝗻 𝗦𝗮𝘁𝘂 𝗠𝗼𝗱𝗲𝗹 𝘂𝗻𝘁𝘂𝗸 𝗦𝗲𝗺𝘂𝗮 𝗛𝗮𝗹

Menjalankan model 70B hanya untuk meringkas email pendek adalah pemborosan. Menggunakan model 3B untuk meninjau kode sangat berisiko. Kebanyakan sistem berada di tengah-tengah. Di sinilah model routing membantu.

Routing mencocokkan tingkat kesulitan tugas dengan kemampuan model. Ini menghemat biaya dan mengurangi waktu tunggu. Kebanyakan orang menggunakan satu model untuk segalanya. Hal ini akan berhasil sampai biaya atau kecepatan menjadi masalah.

Gunakan empat strategi ini:

• Berbasis kemampuan (Capability-based): Lakukan routing berdasarkan apa yang bisa dilakukan model. • Sadar biaya (Cost-aware): Lakukan routing berdasarkan anggaran Anda. • Sadar latensi (Latency-aware): Lakukan routing berdasarkan seberapa cepat Anda membutuhkan respons. • Hibrida (Hybrid): Gabungkan ketiganya.

Cocokkan tugas Anda dengan ukuran yang tepat:

  • Klasifikasi dan penandaan (tagging): model 1-3B (misalnya, Qwen2.5-1.5B).
  • Peringkasan dan ekstraksi: model 3-7B (misalnya, Llama-3.1-8B).
  • Pembuatan kode (code generation): model 7-14B (misalnya, DeepSeek-Coder).
  • Penalaran kompleks: model 14-32B (misalnya, Llama-3.1-70B).
  • Penulisan kreatif dan analisis: model 32B+ (misalnya, GPT-4).

Jika model kecil dapat menangani suatu tugas, jangan gunakan model besar. Model 1.5B dapat menangani analisis sentimen dengan baik. Ia hanya tidak bisa menulis esai.

Model lokal adalah pilihan yang cerdas. Biayanya hampir nol setelah Anda membeli perangkat kerasnya. Menjalankan model lokal bisa jauh lebih murah daripada membayar token API jika Anda memproses ribuan permintaan.

Pertimbangkan kasus penggunaan ini untuk kecepatan:

  • Chat real-time: Gunakan model di bawah 7B untuk respons instan.
  • Alat interaktif: Gunakan model di bawah 14B.
  • Pemrosesan batch: Gunakan ukuran model apa pun.

Jika Anda membangun router, sertakan rantai cadangan (fallback chain). Mulailah dengan model terbaik. Jika gagal atau mencapai batas, pindah ke model terbaik berikutnya. Model terakhir dalam rantai Anda haruslah model lokal. Model lokal tidak akan gagal karena masalah jaringan atau batasan API.

Routing menambah kompleksitas. Jangan gunakan jika setiap tugas yang Anda lakukan memiliki tingkat kesulitan yang sama. Mulailah dengan satu model. Tambahkan router hanya ketika biaya atau kecepatan menjadi masalah.

Sumber: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1

Komunitas belajar opsional: https://t.me/GyaanSetuAi