मी GPT-4o च्या तुलनेत Qwen चे बेंचमार्किंग केले
एका साध्या कामासाठी मला OpenAI कडून महिन्याला $4,200 चे बिल आले. यामुळे मला इतर मॉडेल्स तपासायला भाग पडले.
मी Qwen आणि GPT-4o ची तुलना करण्यासाठी सहा आठवडे खर्च केले. मी पाच श्रेणींमध्ये 1,247 प्रॉम्प्ट्सचा वापर केला:
- वर्गीकरण (Classification)
- माहिती काढणे (Extraction)
- सारांश लेखन (Summarization)
- कोड जनरेशन (Code generation)
- तर्कशक्ती (Reasoning)
निकालांवरून असे दिसून येते की जास्त खर्च म्हणजे नेहमीच उच्च गुणवत्ता असा होत नाही.
डेटा निकाल:
मी GPT-4o च्या तुलनेत पाच मॉडेल्सची तुलना केली. त्यांचे वेटेड सरासरी (weighted average) स्कोअर खालीलप्रमाणे आहेत:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
वर्गीकरण (classification) कामांमध्ये GPT-4o आणि Qwen3-32B मधील फरक कमी आहे. मात्र, तर्कशक्तीच्या (reasoning) बाबतीत GPT-4o मोठ्या फरकाने ahead आहे.
खर्चाचा परिणाम:
मी दरमहा 47 दशलक्ष इनपुट टोकन्स आणि 12 दशलक्ष आउटपुट टोकन्सच्या आधारावर खर्चाचा अंदाज लावला.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
त्याच गुणवत्तेसह माझे $4,200 चे बिल केवळ $339 असू शकले असते.
मी माझी पाइपलाइन कशी सुधारली:
मी टियर्ड राउटिंग सिस्टमचा (tiered routing system) वापर सुरू केला. कामाची कठीणता ठरवण्यासाठी मी एका लहान मॉडेलचा वापर करतो.
- सोपी कामे DeepSeek V4 Flash कडे जातात.
- मध्यम कामे Qwen3-32B कडे जातात.
- कठीण कामे DeepSeek V4 Pro किंवा GPT-4o कडे जातात.
मी 'सिमँटिक कॅशिंग' (semantic caching) देखील जोडले आहे. यामुळे मला सारख्याच प्रश्नांसाठी प्रतिसाद पुन्हा वापरता येतात. यामुळे माझ्या LLM हिट्समध्ये 40% घट झाली.
माझा निर्णय मार्गदर्शक:
- जर तुम्हाला उच्च दर्जाची गुणवत्ता हवी असेल आणि बजेटची मर्यादा नसेल: तर GPT-4o किंवा DeepSeek V4 Pro वापरा.
- जर तुम्हाला गुणवत्ता हवी असेल पण पैसे वाचवायचे असतील: तर स्मार्ट राउटिंगसह Qwen3-32B वापरा.
- जर खर्च हीच तुमची एकमेव प्राथमिकता असेल: तर DeepSeek V4 Flash वापरा.
- जर तुमचे काम मोठ्या प्रमाणावर असेल आणि कामे साधी असतील: तर GLM-4 Plus वापरा.
स्वस्त मॉडेल्सचा लॅटन्सी (latency) देखील अनेकदा चांगला असतो. जर तुमच्या वापरकर्त्यांना जलद प्रतिसाद हवा असेल, तर निवड करण्यापूर्वी 'टोकन्स प्रति सेकंद' तपासा.
स्रोत: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a