𝗜 𝗠𝗲𝗹𝗮𝗸𝘂𝗸𝗮𝗻 𝗣𝗲𝗻𝗮𝗻𝗱𝗮𝗮𝗿𝗮𝘀𝗮𝗻 𝗤𝘄𝗲𝗻 𝗕𝗲𝗿𝗯𝗮𝗻𝗱𝗶𝗻𝗴 𝗚𝗣𝗧-𝟰𝗼
Saya berdepan dengan bil bulanan sebanyak $4,200 daripada OpenAI untuk tugasan yang mudah. Ini memaksa saya untuk menguji model-model lain.
Saya meluangkan masa selama enam minggu membandingkan Qwen dan GPT-4o. Saya menggunakan 1,247 prom dalam lima kategori:
- Klasifikasi
- Pengekstrakan
- Ringkasan
- Penjanaan kod
- Penaakulan
Keputusan menunjukkan bahawa kos yang lebih tinggi tidak semestinya bermaksud kualiti yang lebih tinggi.
Keputusan Data:
Saya membandingkan lima model berbanding GPT-4o. Berikut adalah skor purata wajaran:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
Jurang antara GPT-4o dan Qwen3-32B adalah kecil dalam tugasan klasifikasi. Walau bagaimanapun, GPT-4o menang dengan ketara dalam penaakulan.
Impak Kos:
Saya membuat unjuran kos berdasarkan 47 juta token input dan 12 juta token output sebulan.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
Bil $4,200 saya boleh menjadi hanya $339 dengan kualiti yang sama.
Bagaimana Saya Memperbaiki Saluran Kerja Saya:
Saya beralih kepada sistem penghalaan bertingkat (tiered routing system). Saya menggunakan model kecil untuk menilai tahap kesukaran tugasan.
- Tugasan mudah dihantar ke DeepSeek V4 Flash.
- Tugasan sederhana dihantar ke Qwen3-32B.
- Tugasan sukar dihantar ke DeepSeek V4 Pro atau GPT-4o.
Saya juga menambah pengecachean semantik (semantic caching). Ini membolehkan saya menggunakan semula jawapan untuk pertanyaan yang serupa. Ia mengurangkan penggunaan LLM saya sebanyak 40%.
Panduan Keputusan Saya:
- Jika anda memerlukan kualiti terbaik dan mempunyai bajet yang fleksibel: Gunakan GPT-4o atau DeepSeek V4 Pro.
- Jika anda memerlukan kualiti tetapi ingin menjimatkan wang: Gunakan Qwen3-32B dengan penghalaan pintar.
- Jika kos adalah satu-satunya keutamaan anda: Gunakan DeepSeek V4 Flash.
- Jika anda mempunyai skala yang besar dan tugasan yang mudah: Gunakan GLM-4 Plus.
Model yang lebih murah juga sering mempunyai kependaman (latency) yang lebih baik. Jika pengguna anda memerlukan respons yang pantas, semak token sesaat sebelum anda membuat pilihan.
Sumber: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a