𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

मी GPT-4o च्या तुलनेत Qwen चे बेंचमार्किंग केले

एका साध्या कामासाठी मला OpenAI कडून महिन्याला $4,200 चे बिल आले. यामुळे मला इतर मॉडेल्स तपासायला भाग पडले.

मी Qwen आणि GPT-4o ची तुलना करण्यासाठी सहा आठवडे खर्च केले. मी पाच श्रेणींमध्ये 1,247 प्रॉम्प्ट्सचा वापर केला:

वर्गीकरण (Classification)
माहिती काढणे (Extraction)
सारांश लेखन (Summarization)
कोड जनरेशन (Code generation)
तर्कशक्ती (Reasoning)

निकालांवरून असे दिसून येते की जास्त खर्च म्हणजे नेहमीच उच्च गुणवत्ता असा होत नाही.

डेटा निकाल:

मी GPT-4o च्या तुलनेत पाच मॉडेल्सची तुलना केली. त्यांचे वेटेड सरासरी (weighted average) स्कोअर खालीलप्रमाणे आहेत:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

वर्गीकरण (classification) कामांमध्ये GPT-4o आणि Qwen3-32B मधील फरक कमी आहे. मात्र, तर्कशक्तीच्या (reasoning) बाबतीत GPT-4o मोठ्या फरकाने ahead आहे.

खर्चाचा परिणाम:

मी दरमहा 47 दशलक्ष इनपुट टोकन्स आणि 12 दशलक्ष आउटपुट टोकन्सच्या आधारावर खर्चाचा अंदाज लावला.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

त्याच गुणवत्तेसह माझे $4,200 चे बिल केवळ $339 असू शकले असते.

मी माझी पाइपलाइन कशी सुधारली:

मी टियर्ड राउटिंग सिस्टमचा (tiered routing system) वापर सुरू केला. कामाची कठीणता ठरवण्यासाठी मी एका लहान मॉडेलचा वापर करतो.

सोपी कामे DeepSeek V4 Flash कडे जातात.
मध्यम कामे Qwen3-32B कडे जातात.
कठीण कामे DeepSeek V4 Pro किंवा GPT-4o कडे जातात.

मी 'सिमँटिक कॅशिंग' (semantic caching) देखील जोडले आहे. यामुळे मला सारख्याच प्रश्नांसाठी प्रतिसाद पुन्हा वापरता येतात. यामुळे माझ्या LLM हिट्समध्ये 40% घट झाली.

माझा निर्णय मार्गदर्शक:

जर तुम्हाला उच्च दर्जाची गुणवत्ता हवी असेल आणि बजेटची मर्यादा नसेल: तर GPT-4o किंवा DeepSeek V4 Pro वापरा.
जर तुम्हाला गुणवत्ता हवी असेल पण पैसे वाचवायचे असतील: तर स्मार्ट राउटिंगसह Qwen3-32B वापरा.
जर खर्च हीच तुमची एकमेव प्राथमिकता असेल: तर DeepSeek V4 Flash वापरा.
जर तुमचे काम मोठ्या प्रमाणावर असेल आणि कामे साधी असतील: तर GLM-4 Plus वापरा.

स्वस्त मॉडेल्सचा लॅटन्सी (latency) देखील अनेकदा चांगला असतो. जर तुमच्या वापरकर्त्यांना जलद प्रतिसाद हवा असेल, तर निवड करण्यापूर्वी 'टोकन्स प्रति सेकंद' तपासा.

स्रोत: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

मी कमी खर्चात वर्डप्रेस एआय चॅटबॉट कसा तयार केला

DeepSeek विरुद्ध Claude 3.5 Sonnet: माझे प्रामाणिक मत

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀