𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

నేను GPT-4o తో పోల్చి Qwen ని బెంచ్‌మార్క్ చేశాను

ఒక సాధారణ పని కోసం OpenAI నుండి నాకు నెలకు $4,200 బిల్లు వచ్చింది. ఇది నన్ను ఇతర మోడల్స్‌ను పరీక్షించవలసి వచ్చేలా చేసింది.

నేను Qwen మరియు GPT-4oలను పోల్చడానికి ఆరు వారాలు కేటాయించాను. నేను ఐదు వర్గాలలో 1,247 ప్రాంప్ట్‌లను ఉపయోగించాను:

Classification (వర్గీకరణ)
Extraction (వెలికితీత)
Summarization (సారాంశం)
Code generation (కోడ్ జనరేషన్)
Reasoning (రీజనింగ్)

ఎక్కువ ఖర్చు అంటే ఎప్పుడూ ఎక్కువ నాణ్యత అని కాదు అని ఈ ఫలితాలు చూపుతున్నాయి.

డేటా ఫలితాలు:

నేను GPT-4o తో పోల్చి ఐదు మోడల్స్‌ను పరిశీలించాను. వాటి వెయిటెడ్ యావరేజ్ స్కోర్లు ఇక్కడ ఉన్నాయి:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

వర్గీకరణ (classification) పనులలో GPT-4o మరియు Qwen3-32B మధ్య వ్యత్యాసం తక్కువగా ఉంది. అయితే, రీజనింగ్ (reasoning) విషయంలో GPT-4o గణనీయంగా మెరుగ్గా ఉంది.

ఖర్చు ప్రభావం:

నెలకు 47 మిలియన్ ఇన్‌పుట్ టోకెన్లు మరియు 12 మిలియన్ అవుట్‌పుట్ టోకెన్ల ఆధారంగా నేను ఖర్చులను అంచనా వేసాను.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

అదే నాణ్యతతో నా $4,200 బిల్లును కేవలం $339 లోనే పూర్తి చేయవచ్చని తెలిసింది.

నా పైప్‌లైన్‌ను నేను ఎలా సరిదిద్దుకున్నాను:

నేను ఒక టైర్డ్ రూటింగ్ సిస్టమ్ (tiered routing system) కు మారాను. పని యొక్క కష్టాన్ని అంచనా వేయడానికి నేను ఒక చిన్న మోడల్‌ను ఉపయోగిస్తాను.

సులభమైన పనులను DeepSeek V4 Flash కి పంపిస్తాను.
మధ్యస్థ పనులను Qwen3-32B కి పంపిస్తాను.
కష్టమైన పనులను DeepSeek V4 Pro లేదా GPT-4o కి పంపిస్తాను.

నేను సెమాంటిక్ క్యాషింగ్ (semantic caching) కూడా జోడించాను. ఇది ఒకే రకమైన ప్రశ్నలకు సమాధానాలను మళ్ళీ ఉపయోగించుకోవడానికి నాకు అనుమతిస్తుంది. దీనివల్ల నా LLM హిట్స్ 40% తగ్గాయి.

నా నిర్ణయ మార్గదర్శి:

మీకు అత్యుత్తమ నాణ్యత కావాలి మరియు బడ్జెట్ విషయంలో వెసులుబాటు ఉంటే: GPT-4o లేదా DeepSeek V4 Pro ఉపయోగించండి.
మీకు నాణ్యత కావాలి కానీ డబ్బు ఆదా చేయాలనుకుంటే: స్మార్ట్ రూటింగ్‌తో Qwen3-32B ఉపయోగించండి.
ఖర్చు మాత్రమే మీ ప్రాధాన్యత అయితే: DeepSeek V4 Flash ఉపయోగించండి.
మీకు భారీ స్థాయిలో మరియు సాధారణ పనులు ఉంటే: GLM-4 Plus ఉపయోగించండి.

తక్కువ ధర కలిగిన మోడల్స్‌కు తరచుగా తక్కువ లాటెన్సీ (latency) కూడా ఉంటుంది. మీ వినియోగదారులకు వేగవంతమైన ప్రతిస్పందనలు కావాలంటే, ఎంచుకునే ముందు సెకనుకు ఎన్ని టోకెన్లు (tokens per second) వస్తున్నాయో తనిఖీ చేయండి.

మూలం: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

ఈ RAG సెటప్‌తో నేను నా AI ఖర్చులను 60% ఎలా తగ్గించాను

తక్కువ బడ్జెట్‌లో నేను ఒక వర్డ్‌ప్రెస్ AI చాట్‌బాట్‌ను ఎలా నిర్మించాను

DeepSeek vs Claude 3.5 Sonnet: నా నిజాయితీతో కూడిన అభిప్రాయం

5 కోడింగ్ టాస్క్‌ల ద్వారా 10 AI మోడళ్లను పరీక్షించాను