मैंने GPT-4o के मुकाबले Qwen का बेंचमार्क किया

📅3 hours ago⏱2 min read

मैंने GPT-4o के मुकाबले Qwen का बेंचमार्क किया

एक साधारण से काम के लिए मुझे OpenAI से $4,200 का मासिक बिल मिला। इसने मुझे अन्य मॉडल्स का परीक्षण करने के लिए मजबूर कर दिया।

मैंने Qwen और GPT-4o की तुलना करने में छह सप्ताह बिताए। मैंने पांच श्रेणियों में 1,247 प्रॉम्प्ट्स का उपयोग किया:

वर्गीकरण (Classification)
निष्कर्षण (Extraction)
सारांश (Summarization)
कोड जनरेशन (Code generation)
तर्क (Reasoning)

परिणाम दिखाते हैं कि अधिक लागत का मतलब हमेशा उच्च गुणवत्ता नहीं होता है।

डेटा परिणाम:

मैंने GPT-4o के मुकाबले पांच मॉडल्स की तुलना की। यहाँ उनके भारित औसत स्कोर (weighted average scores) दिए गए हैं:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

वर्गीकरण कार्यों में GPT-4o और Qwen3-32B के बीच का अंतर कम है। हालाँकि, तर्क (reasoning) के मामले में GPT-4o काफी आगे है।

लागत का प्रभाव:

मैंने प्रति माह 47 मिलियन इनपुट टोकन और 12 मिलियन आउटपुट टोकन के आधार पर लागत का अनुमान लगाया।

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

मेरा $4,200 का बिल समान गुणवत्ता के साथ केवल $339 हो सकता था।

मैंने अपने पाइपलाइन को कैसे ठीक किया:

मैं एक टियर्ड रूटिंग सिस्टम (tiered routing system) पर चला गया। मैं कार्य की कठिनाई का आकलन करने के लिए एक छोटे मॉडल का उपयोग करता हूँ।

आसान कार्य DeepSeek V4 Flash को भेजे जाते हैं।
मध्यम कार्य Qwen3-32B को भेजे जाते हैं।
कठिन कार्य DeepSeek V4 Pro या GPT-4o को भेजे जाते हैं।

मैंने सिमेंटिक कैशिंग (semantic caching) भी जोड़ी। यह मुझे समान प्रश्नों के लिए प्रतिक्रियाओं का पुन: उपयोग करने की अनुमति देता है। इससे मेरे LLM हिट्स में 40% की कमी आई।

मेरा निर्णय गाइड:

यदि आपको शीर्ष गुणवत्ता चाहिए और बजट लचीला है: GPT-4o या DeepSeek V4 Pro का उपयोग करें।
यदि आपको गुणवत्ता चाहिए लेकिन पैसा बचाना चाहते हैं: स्मार्ट रूटिंग के साथ Qwen3-32B का उपयोग करें।
यदि लागत आपकी एकमात्र प्राथमिकता है: DeepSeek V4 Flash का उपयोग करें।
यदि आपके पास बड़े पैमाने पर काम और सरल कार्य हैं: GLM-4 Plus का उपयोग करें।

सस्ते मॉडल्स में अक्सर लेटेंसी (latency) भी बेहतर होती है। यदि आपके उपयोगकर्ताओं को तेज़ प्रतिक्रियाओं की आवश्यकता है, तो चुनने से पहले प्रति सेकंड टोकन (tokens per second) की जाँच करें।

स्रोत: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

मैंने GPT-4o के मुकाबले Qwen का बेंचमार्क किया

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

इस RAG सेटअप के साथ मैंने अपने AI खर्चों में 60% की कटौती कैसे की

मैंने कम बजट में वर्डप्रेस AI चैटबॉट कैसे बनाया

DeepSeek बनाम Claude 3.5 Sonnet: मेरी ईमानदार राय

मैंने 5 कोडिंग कार्यों के माध्यम से 10 AI मॉडल चलाए