मैंने GPT-4o के मुकाबले Qwen का बेंचमार्क किया
एक साधारण से काम के लिए मुझे OpenAI से $4,200 का मासिक बिल मिला। इसने मुझे अन्य मॉडल्स का परीक्षण करने के लिए मजबूर कर दिया।
मैंने Qwen और GPT-4o की तुलना करने में छह सप्ताह बिताए। मैंने पांच श्रेणियों में 1,247 प्रॉम्प्ट्स का उपयोग किया:
- वर्गीकरण (Classification)
- निष्कर्षण (Extraction)
- सारांश (Summarization)
- कोड जनरेशन (Code generation)
- तर्क (Reasoning)
परिणाम दिखाते हैं कि अधिक लागत का मतलब हमेशा उच्च गुणवत्ता नहीं होता है।
डेटा परिणाम:
मैंने GPT-4o के मुकाबले पांच मॉडल्स की तुलना की। यहाँ उनके भारित औसत स्कोर (weighted average scores) दिए गए हैं:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
वर्गीकरण कार्यों में GPT-4o और Qwen3-32B के बीच का अंतर कम है। हालाँकि, तर्क (reasoning) के मामले में GPT-4o काफी आगे है।
लागत का प्रभाव:
मैंने प्रति माह 47 मिलियन इनपुट टोकन और 12 मिलियन आउटपुट टोकन के आधार पर लागत का अनुमान लगाया।
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
मेरा $4,200 का बिल समान गुणवत्ता के साथ केवल $339 हो सकता था।
मैंने अपने पाइपलाइन को कैसे ठीक किया:
मैं एक टियर्ड रूटिंग सिस्टम (tiered routing system) पर चला गया। मैं कार्य की कठिनाई का आकलन करने के लिए एक छोटे मॉडल का उपयोग करता हूँ।
- आसान कार्य DeepSeek V4 Flash को भेजे जाते हैं।
- मध्यम कार्य Qwen3-32B को भेजे जाते हैं।
- कठिन कार्य DeepSeek V4 Pro या GPT-4o को भेजे जाते हैं।
मैंने सिमेंटिक कैशिंग (semantic caching) भी जोड़ी। यह मुझे समान प्रश्नों के लिए प्रतिक्रियाओं का पुन: उपयोग करने की अनुमति देता है। इससे मेरे LLM हिट्स में 40% की कमी आई।
मेरा निर्णय गाइड:
- यदि आपको शीर्ष गुणवत्ता चाहिए और बजट लचीला है: GPT-4o या DeepSeek V4 Pro का उपयोग करें।
- यदि आपको गुणवत्ता चाहिए लेकिन पैसा बचाना चाहते हैं: स्मार्ट रूटिंग के साथ Qwen3-32B का उपयोग करें।
- यदि लागत आपकी एकमात्र प्राथमिकता है: DeepSeek V4 Flash का उपयोग करें।
- यदि आपके पास बड़े पैमाने पर काम और सरल कार्य हैं: GLM-4 Plus का उपयोग करें।
सस्ते मॉडल्स में अक्सर लेटेंसी (latency) भी बेहतर होती है। यदि आपके उपयोगकर्ताओं को तेज़ प्रतिक्रियाओं की आवश्यकता है, तो चुनने से पहले प्रति सेकंड टोकन (tokens per second) की जाँच करें।
स्रोत: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a