𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

𝗜 𝗠𝗲𝗹𝗮𝗸𝘂𝗸𝗮𝗻 𝗣𝗲𝗻𝗮𝗻𝗱𝗮𝗮𝗿𝗮𝘀𝗮𝗻 𝗤𝘄𝗲𝗻 𝗕𝗲𝗿𝗯𝗮𝗻𝗱𝗶𝗻𝗴 𝗚𝗣𝗧-𝟰𝗼

Saya berdepan dengan bil bulanan sebanyak $4,200 daripada OpenAI untuk tugasan yang mudah. Ini memaksa saya untuk menguji model-model lain.

Saya meluangkan masa selama enam minggu membandingkan Qwen dan GPT-4o. Saya menggunakan 1,247 prom dalam lima kategori:

Klasifikasi
Pengekstrakan
Ringkasan
Penjanaan kod
Penaakulan

Keputusan menunjukkan bahawa kos yang lebih tinggi tidak semestinya bermaksud kualiti yang lebih tinggi.

Keputusan Data:

Saya membandingkan lima model berbanding GPT-4o. Berikut adalah skor purata wajaran:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

Jurang antara GPT-4o dan Qwen3-32B adalah kecil dalam tugasan klasifikasi. Walau bagaimanapun, GPT-4o menang dengan ketara dalam penaakulan.

Impak Kos:

Saya membuat unjuran kos berdasarkan 47 juta token input dan 12 juta token output sebulan.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

Bil $4,200 saya boleh menjadi hanya $339 dengan kualiti yang sama.

Bagaimana Saya Memperbaiki Saluran Kerja Saya:

Saya beralih kepada sistem penghalaan bertingkat (tiered routing system). Saya menggunakan model kecil untuk menilai tahap kesukaran tugasan.

Tugasan mudah dihantar ke DeepSeek V4 Flash.
Tugasan sederhana dihantar ke Qwen3-32B.
Tugasan sukar dihantar ke DeepSeek V4 Pro atau GPT-4o.

Saya juga menambah pengecachean semantik (semantic caching). Ini membolehkan saya menggunakan semula jawapan untuk pertanyaan yang serupa. Ia mengurangkan penggunaan LLM saya sebanyak 40%.

Panduan Keputusan Saya:

Jika anda memerlukan kualiti terbaik dan mempunyai bajet yang fleksibel: Gunakan GPT-4o atau DeepSeek V4 Pro.
Jika anda memerlukan kualiti tetapi ingin menjimatkan wang: Gunakan Qwen3-32B dengan penghalaan pintar.
Jika kos adalah satu-satunya keutamaan anda: Gunakan DeepSeek V4 Flash.
Jika anda mempunyai skala yang besar dan tugasan yang mudah: Gunakan GLM-4 Plus.

Model yang lebih murah juga sering mempunyai kependaman (latency) yang lebih baik. Jika pengguna anda memerlukan respons yang pantas, semak token sesaat sebelum anda membuat pilihan.

Sumber: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

Bagaimana Saya Membina Chatbot AI WordPress dengan Bajet Terhad

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀