𝗥𝗼𝘂𝘁𝗶𝗻𝗴 𝗠𝗼𝗱𝗲𝗹: 𝗕𝗲𝗿𝗵𝗲𝗻𝘁𝗶 𝗚𝘂𝗻𝗮𝗸𝗮𝗻 𝗦𝗮𝘁𝘂 𝗠𝗼𝗱𝗲𝗹 𝘂𝗻𝘁𝘂𝗸 𝗦𝗲𝗴𝗮𝗹𝗮-𝗴𝗮𝗹𝗮
Menjalankan model 70B untuk meringkaskan e-mel pendek adalah membazir. Menggunakan model 3B untuk menyemak kod adalah berisiko. Kebanyakan sistem berada di tengah-tengah. Di sinilah routing model membantu.
Routing memadankan tahap kesukaran tugasan dengan keupayaan model. Ia menjimatkan wang dan mengurangkan masa menunggu. Kebanyakan orang menggunakan satu model untuk semua perkara. Ini berkesan sehinggalah kos atau kelajuan menjadi masalah.
Gunakan empat strategi ini:
• Berasaskan keupayaan: Lakukan routing berdasarkan apa yang model boleh lakukan. • Sedar kos: Lakukan routing berdasarkan bajet anda. • Sedar kependaman: Lakukan routing berdasarkan kepantasan respons yang anda perlukan. • Hibrid: Gabungkan ketiga-tiganya.
Padankan tugasan anda dengan saiz yang betul:
- Klasifikasi dan penandaan: model 1-3B (cth., Qwen2.5-1.5B).
- Ringkasan dan pengekstrakan: model 3-7B (cth., Llama-3.1-8B).
- Penjanaan kod: model 7-14B (cth., DeepSeek-Coder).
- Penaakulan kompleks: model 14-32B (cth., Llama-3.1-70B).
- Penulisan kreatif dan analisis: model 32B+ (cth., GPT-4).
Jika model kecil boleh mengendalikan sesuatu tugasan, jangan gunakan model besar. Model 1.5B boleh mengendalikan analisis sentimen dengan baik. Ia cuma tidak boleh menulis esei.
Model tempatan adalah pilihan yang bijak. Ia hampir tidak menelan kos selepas anda membeli perkakasan. Menjalankan model tempatan boleh menjadi jauh lebih murah daripada membayar token API jika anda memproses beribu-ribu permintaan.
Pertimbangkan kes penggunaan ini untuk kelajuan:
- Sembang masa nyata: Gunakan model di bawah 7B untuk respons segera.
- Alatan interaktif: Gunakan model di bawah 14B.
- Pemprosesan berkelompok: Gunakan mana-mana saiz model.
Jika anda membina router, sertakan rantaian sandaran (fallback chain). Mulakan dengan model terbaik. Jika ia gagal atau mencapai had, beralih ke model terbaik seterusnya. Model terakhir dalam rantaian anda haruslah model tempatan. Model tempatan tidak gagal disebabkan oleh isu rangkaian atau had API.
Routing menambah kerumitan. Jangan gunakannya jika setiap tugasan yang anda lakukan mempunyai tahap kesukaran yang sama. Mulakan dengan satu model. Tambah router hanya apabila kos atau kelajuan menjadi masalah.
Sumber: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1
Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi