मी GPT-4o च्या तुलनेत Qwen चे बेंचमार्किंग केले

एका साध्या कामासाठी मला OpenAI कडून महिन्याला $4,200 चे बिल आले. यामुळे मला इतर मॉडेल्स तपासायला भाग पडले.

मी Qwen आणि GPT-4o ची तुलना करण्यासाठी सहा आठवडे खर्च केले. मी पाच श्रेणींमध्ये 1,247 प्रॉम्प्ट्सचा वापर केला:

निकालांवरून असे दिसून येते की जास्त खर्च म्हणजे नेहमीच उच्च गुणवत्ता असा होत नाही.

डेटा निकाल:

मी GPT-4o च्या तुलनेत पाच मॉडेल्सची तुलना केली. त्यांचे वेटेड सरासरी (weighted average) स्कोअर खालीलप्रमाणे आहेत:

वर्गीकरण (classification) कामांमध्ये GPT-4o आणि Qwen3-32B मधील फरक कमी आहे. मात्र, तर्कशक्तीच्या (reasoning) बाबतीत GPT-4o मोठ्या फरकाने ahead आहे.

खर्चाचा परिणाम:

मी दरमहा 47 दशलक्ष इनपुट टोकन्स आणि 12 दशलक्ष आउटपुट टोकन्सच्या आधारावर खर्चाचा अंदाज लावला.

त्याच गुणवत्तेसह माझे $4,200 चे बिल केवळ $339 असू शकले असते.

मी माझी पाइपलाइन कशी सुधारली:

मी टियर्ड राउटिंग सिस्टमचा (tiered routing system) वापर सुरू केला. कामाची कठीणता ठरवण्यासाठी मी एका लहान मॉडेलचा वापर करतो.

मी 'सिमँटिक कॅशिंग' (semantic caching) देखील जोडले आहे. यामुळे मला सारख्याच प्रश्नांसाठी प्रतिसाद पुन्हा वापरता येतात. यामुळे माझ्या LLM हिट्समध्ये 40% घट झाली.

माझा निर्णय मार्गदर्शक:

स्वस्त मॉडेल्सचा लॅटन्सी (latency) देखील अनेकदा चांगला असतो. जर तुमच्या वापरकर्त्यांना जलद प्रतिसाद हवा असेल, तर निवड करण्यापूर्वी 'टोकन्स प्रति सेकंद' तपासा.

स्रोत: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a