𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧-𝟰𝗼
ഒരു ലളിതമായ ജോലിക്കായി OpenAI-യിൽ നിന്ന് എനിക്ക് പ്രതിമാസം $4,200 ബില്ല് ലഭിച്ചു. ഇത് മറ്റ് മോഡലുകൾ പരീക്ഷിക്കാൻ എന്നെ പ്രേരിപ്പിച്ചു.
ആറ് ആഴ്ചകൾ എടുത്താണ് ഞാൻ Qwen-ഉം GPT-4o-യും തമ്മിൽ താരതമ്യം ചെയ്തത്. അഞ്ച് വിഭാഗങ്ങളിലായി 1,247 പ്രോംപ്റ്റുകളാണ് ഞാൻ ഉപയോഗിച്ചത്:
- ക്ലാസിഫിക്കേഷൻ (Classification)
- എക്സ്ട്രാക്ഷൻ (Extraction)
- സമ്മറൈസേഷൻ (Summarization)
- കോഡ് ജനറേഷൻ (Code generation)
- റീസണിംഗ് (Reasoning)
ഉയർന്ന ചിലവ് എന്നാൽ എപ്പോഴും ഉയർന്ന ഗുണമേന്മ എന്ന് അർത്ഥമില്ലെന്ന് ഫലങ്ങൾ കാണിക്കുന്നു.
ഡാറ്റാ ഫലങ്ങൾ:
ഞാൻ അഞ്ച് മോഡലുകളെ GPT-4o-യുമായി താരതമ്യം ചെയ്തു. അവയുടെ വെയിറ്റഡ് ആവറേജ് സ്കോറുകൾ താഴെ പറയുന്നവയാണ്:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
ക്ലാസിഫിക്കേഷൻ ജോലികളിൽ GPT-4o-യും Qwen3-32B-യും തമ്മിലുള്ള വ്യത്യാസം വളരെ കുറവാണ്. എന്നാൽ റീസണിംഗിൽ GPT-4o വ്യക്തമായ മുന്നേറ്റം നടത്തുന്നു.
ചിലവ് വരുത്തുന്ന ആഘാതം:
പ്രതിമാസം 47 ദശലക്ഷം ഇൻപുട്ട് ടോക്കണുകളും 12 ദശലക്ഷം ഔട്ട്പുട്ട് ടോക്കണുകളും അടിസ്ഥാനമാക്കി ഞാൻ ചിലവ് കണക്കാക്കി.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
ഒരേ ഗുണമേന്മ നിലനിർത്തിക്കൊണ്ട് തന്നെ എന്റെ $4,200 ബില്ല് $339 ആയി കുറയ്ക്കാമായിരുന്നു.
എന്റെ പൈപ്പ്ലൈൻ ഞാൻ എങ്ങനെ പരിഷ്കരിച്ചു:
ഞാൻ ഒരു ടിയർഡ് റൂട്ടിംഗ് സിസ്റ്റത്തിലേക്ക് (tiered routing system) മാറി. ജോലിയുടെ കാഠിന്യം നിർണ്ണയിക്കാൻ ഞാൻ ഒരു ചെറിയ മോഡൽ ഉപയോഗിക്കുന്നു.
- എളുപ്പമുള്ള ജോലികൾ DeepSeek V4 Flash-ലേക്ക് അയക്കുന്നു.
- ഇടത്തരം ജോലികൾ Qwen3-32B-ലേക്ക് അയക്കുന്നു.
- കഠിനമായ ജോലികൾ DeepSeek V4 Pro അല്ലെങ്കിൽ GPT-4o-ലേക്ക് അയക്കുന്നു.
ഞാൻ സെമാന്റിക് കാഷിംഗും (semantic caching) ചേർത്തു. സമാനമായ ചോദ്യങ്ങൾക്ക് മറുപടികൾ വീണ്ടും ഉപയോഗിക്കാൻ ഇത് എന്നെ അനുവദിക്കുന്നു. ഇത് എന്റെ LLM ഹിറ്റുകൾ 40% കുറച്ചു.
എന്റെ തീരുമാന സഹായി:
- നിങ്ങൾക്ക് ഏറ്റവും ഉയർന്ന ഗുണമേന്മ ആവശ്യമാണെങ്കിൽ കൂടാതെ ബജറ്റിൽ നിയന്ത്രണമില്ലെങ്കിൽ: GPT-4o അല്ലെങ്കിൽ DeepSeek V4 Pro ഉപയോഗിക്കുക.
- നിങ്ങൾക്ക് ഗുണമേന്മ ആവശ്യമാണെങ്കിലും പണം ലാഭിക്കണമെന്നുണ്ടെങ്കിൽ: സ്മാർട്ട് റൂട്ടിംഗോടൊപ്പം Qwen3-32B ഉപയോഗിക്കുക.
- ചിലവ് മാത്രമാണ് നിങ്ങളുടെ മുൻഗണനയെങ്കിൽ: DeepSeek V4 Flash ഉപയോഗിക്കുക.
- വലിയ തോതിലുള്ള ജോലികളും ലളിതമായ ടാസ്ക്കുകളും ആണെങ്കിൽ: GLM-4 Plus ഉപയോഗിക്കുക.
കുറഞ്ഞ ചിലവുള്ള മോഡലുകൾക്ക് പലപ്പോഴും മികച്ച ലേറ്റൻസി (latency) ഉണ്ടാകാറുണ്ട്. നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് വേഗത്തിലുള്ള മറുപടികൾ ആവശ്യമാണെങ്കിൽ, തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ് സെക്കൻഡിൽ എത്ര ടോക്കണുകൾ ലഭിക്കുന്നു എന്ന് പരിശോധിക്കുക.
സ്രോതസ്സ്: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a