నేను GPT-4o తో పోల్చి Qwen ని బెంచ్‌మార్క్ చేశాను

ఒక సాధారణ పని కోసం OpenAI నుండి నాకు నెలకు $4,200 బిల్లు వచ్చింది. ఇది నన్ను ఇతర మోడల్స్‌ను పరీక్షించవలసి వచ్చేలా చేసింది.

నేను Qwen మరియు GPT-4oలను పోల్చడానికి ఆరు వారాలు కేటాయించాను. నేను ఐదు వర్గాలలో 1,247 ప్రాంప్ట్‌లను ఉపయోగించాను:

ఎక్కువ ఖర్చు అంటే ఎప్పుడూ ఎక్కువ నాణ్యత అని కాదు అని ఈ ఫలితాలు చూపుతున్నాయి.

డేటా ఫలితాలు:

నేను GPT-4o తో పోల్చి ఐదు మోడల్స్‌ను పరిశీలించాను. వాటి వెయిటెడ్ యావరేజ్ స్కోర్లు ఇక్కడ ఉన్నాయి:

వర్గీకరణ (classification) పనులలో GPT-4o మరియు Qwen3-32B మధ్య వ్యత్యాసం తక్కువగా ఉంది. అయితే, రీజనింగ్ (reasoning) విషయంలో GPT-4o గణనీయంగా మెరుగ్గా ఉంది.

ఖర్చు ప్రభావం:

నెలకు 47 మిలియన్ ఇన్‌పుట్ టోకెన్లు మరియు 12 మిలియన్ అవుట్‌పుట్ టోకెన్ల ఆధారంగా నేను ఖర్చులను అంచనా వేసాను.

అదే నాణ్యతతో నా $4,200 బిల్లును కేవలం $339 లోనే పూర్తి చేయవచ్చని తెలిసింది.

నా పైప్‌లైన్‌ను నేను ఎలా సరిదిద్దుకున్నాను:

నేను ఒక టైర్డ్ రూటింగ్ సిస్టమ్ (tiered routing system) కు మారాను. పని యొక్క కష్టాన్ని అంచనా వేయడానికి నేను ఒక చిన్న మోడల్‌ను ఉపయోగిస్తాను.

నేను సెమాంటిక్ క్యాషింగ్ (semantic caching) కూడా జోడించాను. ఇది ఒకే రకమైన ప్రశ్నలకు సమాధానాలను మళ్ళీ ఉపయోగించుకోవడానికి నాకు అనుమతిస్తుంది. దీనివల్ల నా LLM హిట్స్ 40% తగ్గాయి.

నా నిర్ణయ మార్గదర్శి:

తక్కువ ధర కలిగిన మోడల్స్‌కు తరచుగా తక్కువ లాటెన్సీ (latency) కూడా ఉంటుంది. మీ వినియోగదారులకు వేగవంతమైన ప్రతిస్పందనలు కావాలంటే, ఎంచుకునే ముందు సెకనుకు ఎన్ని టోకెన్లు (tokens per second) వస్తున్నాయో తనిఖీ చేయండి.

మూలం: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a