𝗜 𝗠𝗲𝗹𝗮𝗸𝘂𝗸𝗮𝗻 𝗣𝗲𝗻𝗮𝗻𝗱𝗮𝗮𝗿𝗮𝘀𝗮𝗻 𝗤𝘄𝗲𝗻 𝗕𝗲𝗿𝗯𝗮𝗻𝗱𝗶𝗻𝗴 𝗚𝗣𝗧-𝟰𝗼

Saya berdepan dengan bil bulanan sebanyak $4,200 daripada OpenAI untuk tugasan yang mudah. Ini memaksa saya untuk menguji model-model lain.

Saya meluangkan masa selama enam minggu membandingkan Qwen dan GPT-4o. Saya menggunakan 1,247 prom dalam lima kategori:

Keputusan menunjukkan bahawa kos yang lebih tinggi tidak semestinya bermaksud kualiti yang lebih tinggi.

Keputusan Data:

Saya membandingkan lima model berbanding GPT-4o. Berikut adalah skor purata wajaran:

Jurang antara GPT-4o dan Qwen3-32B adalah kecil dalam tugasan klasifikasi. Walau bagaimanapun, GPT-4o menang dengan ketara dalam penaakulan.

Impak Kos:

Saya membuat unjuran kos berdasarkan 47 juta token input dan 12 juta token output sebulan.

Bil $4,200 saya boleh menjadi hanya $339 dengan kualiti yang sama.

Bagaimana Saya Memperbaiki Saluran Kerja Saya:

Saya beralih kepada sistem penghalaan bertingkat (tiered routing system). Saya menggunakan model kecil untuk menilai tahap kesukaran tugasan.

Saya juga menambah pengecachean semantik (semantic caching). Ini membolehkan saya menggunakan semula jawapan untuk pertanyaan yang serupa. Ia mengurangkan penggunaan LLM saya sebanyak 40%.

Panduan Keputusan Saya:

Model yang lebih murah juga sering mempunyai kependaman (latency) yang lebih baik. Jika pengguna anda memerlukan respons yang pantas, semak token sesaat sebelum anda membuat pilihan.

Sumber: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a