मैंने GPT-4o के मुकाबले Qwen का बेंचमार्क किया

एक साधारण से काम के लिए मुझे OpenAI से $4,200 का मासिक बिल मिला। इसने मुझे अन्य मॉडल्स का परीक्षण करने के लिए मजबूर कर दिया।

मैंने Qwen और GPT-4o की तुलना करने में छह सप्ताह बिताए। मैंने पांच श्रेणियों में 1,247 प्रॉम्प्ट्स का उपयोग किया:

परिणाम दिखाते हैं कि अधिक लागत का मतलब हमेशा उच्च गुणवत्ता नहीं होता है।

डेटा परिणाम:

मैंने GPT-4o के मुकाबले पांच मॉडल्स की तुलना की। यहाँ उनके भारित औसत स्कोर (weighted average scores) दिए गए हैं:

वर्गीकरण कार्यों में GPT-4o और Qwen3-32B के बीच का अंतर कम है। हालाँकि, तर्क (reasoning) के मामले में GPT-4o काफी आगे है।

लागत का प्रभाव:

मैंने प्रति माह 47 मिलियन इनपुट टोकन और 12 मिलियन आउटपुट टोकन के आधार पर लागत का अनुमान लगाया।

मेरा $4,200 का बिल समान गुणवत्ता के साथ केवल $339 हो सकता था।

मैंने अपने पाइपलाइन को कैसे ठीक किया:

मैं एक टियर्ड रूटिंग सिस्टम (tiered routing system) पर चला गया। मैं कार्य की कठिनाई का आकलन करने के लिए एक छोटे मॉडल का उपयोग करता हूँ।

मैंने सिमेंटिक कैशिंग (semantic caching) भी जोड़ी। यह मुझे समान प्रश्नों के लिए प्रतिक्रियाओं का पुन: उपयोग करने की अनुमति देता है। इससे मेरे LLM हिट्स में 40% की कमी आई।

मेरा निर्णय गाइड:

सस्ते मॉडल्स में अक्सर लेटेंसी (latency) भी बेहतर होती है। यदि आपके उपयोगकर्ताओं को तेज़ प्रतिक्रियाओं की आवश्यकता है, तो चुनने से पहले प्रति सेकंड टोकन (tokens per second) की जाँच करें।

स्रोत: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a