𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧-𝟰𝗼

ഒരു ലളിതമായ ജോലിക്കായി OpenAI-യിൽ നിന്ന് എനിക്ക് പ്രതിമാസം $4,200 ബില്ല് ലഭിച്ചു. ഇത് മറ്റ് മോഡലുകൾ പരീക്ഷിക്കാൻ എന്നെ പ്രേരിപ്പിച്ചു.

ആറ് ആഴ്ചകൾ എടുത്താണ് ഞാൻ Qwen-ഉം GPT-4o-യും തമ്മിൽ താരതമ്യം ചെയ്തത്. അഞ്ച് വിഭാഗങ്ങളിലായി 1,247 പ്രോംപ്റ്റുകളാണ് ഞാൻ ഉപയോഗിച്ചത്:

ക്ലാസിഫിക്കേഷൻ (Classification)
എക്സ്ട്രാക്ഷൻ (Extraction)
സമ്മറൈസേഷൻ (Summarization)
കോഡ് ജനറേഷൻ (Code generation)
റീസണിംഗ് (Reasoning)

ഉയർന്ന ചിലവ് എന്നാൽ എപ്പോഴും ഉയർന്ന ഗുണമേന്മ എന്ന് അർത്ഥമില്ലെന്ന് ഫലങ്ങൾ കാണിക്കുന്നു.

ഡാറ്റാ ഫലങ്ങൾ:

ഞാൻ അഞ്ച് മോഡലുകളെ GPT-4o-യുമായി താരതമ്യം ചെയ്തു. അവയുടെ വെയിറ്റഡ് ആവറേജ് സ്കോറുകൾ താഴെ പറയുന്നവയാണ്:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

ക്ലാസിഫിക്കേഷൻ ജോലികളിൽ GPT-4o-യും Qwen3-32B-യും തമ്മിലുള്ള വ്യത്യാസം വളരെ കുറവാണ്. എന്നാൽ റീസണിംഗിൽ GPT-4o വ്യക്തമായ മുന്നേറ്റം നടത്തുന്നു.

ചിലവ് വരുത്തുന്ന ആഘാതം:

പ്രതിമാസം 47 ദശലക്ഷം ഇൻപുട്ട് ടോക്കണുകളും 12 ദശലക്ഷം ഔട്ട്പുട്ട് ടോക്കണുകളും അടിസ്ഥാനമാക്കി ഞാൻ ചിലവ് കണക്കാക്കി.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

ഒരേ ഗുണമേന്മ നിലനിർത്തിക്കൊണ്ട് തന്നെ എന്റെ $4,200 ബില്ല് $339 ആയി കുറയ്ക്കാമായിരുന്നു.

എന്റെ പൈപ്പ്‌ലൈൻ ഞാൻ എങ്ങനെ പരിഷ്കരിച്ചു:

ഞാൻ ഒരു ടിയർഡ് റൂട്ടിംഗ് സിസ്റ്റത്തിലേക്ക് (tiered routing system) മാറി. ജോലിയുടെ കാഠിന്യം നിർണ്ണയിക്കാൻ ഞാൻ ഒരു ചെറിയ മോഡൽ ഉപയോഗിക്കുന്നു.

എളുപ്പമുള്ള ജോലികൾ DeepSeek V4 Flash-ലേക്ക് അയക്കുന്നു.
ഇടത്തരം ജോലികൾ Qwen3-32B-ലേക്ക് അയക്കുന്നു.
കഠിനമായ ജോലികൾ DeepSeek V4 Pro അല്ലെങ്കിൽ GPT-4o-ലേക്ക് അയക്കുന്നു.

ഞാൻ സെമാന്റിക് കാഷിംഗും (semantic caching) ചേർത്തു. സമാനമായ ചോദ്യങ്ങൾക്ക് മറുപടികൾ വീണ്ടും ഉപയോഗിക്കാൻ ഇത് എന്നെ അനുവദിക്കുന്നു. ഇത് എന്റെ LLM ഹിറ്റുകൾ 40% കുറച്ചു.

എന്റെ തീരുമാന സഹായി:

നിങ്ങൾക്ക് ഏറ്റവും ഉയർന്ന ഗുണമേന്മ ആവശ്യമാണെങ്കിൽ കൂടാതെ ബജറ്റിൽ നിയന്ത്രണമില്ലെങ്കിൽ: GPT-4o അല്ലെങ്കിൽ DeepSeek V4 Pro ഉപയോഗിക്കുക.
നിങ്ങൾക്ക് ഗുണമേന്മ ആവശ്യമാണെങ്കിലും പണം ലാഭിക്കണമെന്നുണ്ടെങ്കിൽ: സ്മാർട്ട് റൂട്ടിംഗോടൊപ്പം Qwen3-32B ഉപയോഗിക്കുക.
ചിലവ് മാത്രമാണ് നിങ്ങളുടെ മുൻഗണനയെങ്കിൽ: DeepSeek V4 Flash ഉപയോഗിക്കുക.
വലിയ തോതിലുള്ള ജോലികളും ലളിതമായ ടാസ്ക്കുകളും ആണെങ്കിൽ: GLM-4 Plus ഉപയോഗിക്കുക.

കുറഞ്ഞ ചിലവുള്ള മോഡലുകൾക്ക് പലപ്പോഴും മികച്ച ലേറ്റൻസി (latency) ഉണ്ടാകാറുണ്ട്. നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് വേഗത്തിലുള്ള മറുപടികൾ ആവശ്യമാണെങ്കിൽ, തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ് സെക്കൻഡിൽ എത്ര ടോക്കണുകൾ ലഭിക്കുന്നു എന്ന് പരിശോധിക്കുക.

സ്രോതസ്സ്: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

കുറഞ്ഞ ചിലവിൽ ഞാൻ എങ്ങനെ ഒരു വേർഡ്പ്രസ്സ് AI ചാറ്റ്ബോട്ട് നിർമ്മിച്ചു

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀