𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧-𝟰𝗼

ഒരു ലളിതമായ ജോലിക്കായി OpenAI-യിൽ നിന്ന് എനിക്ക് പ്രതിമാസം $4,200 ബില്ല് ലഭിച്ചു. ഇത് മറ്റ് മോഡലുകൾ പരീക്ഷിക്കാൻ എന്നെ പ്രേരിപ്പിച്ചു.

ആറ് ആഴ്ചകൾ എടുത്താണ് ഞാൻ Qwen-ഉം GPT-4o-യും തമ്മിൽ താരതമ്യം ചെയ്തത്. അഞ്ച് വിഭാഗങ്ങളിലായി 1,247 പ്രോംപ്റ്റുകളാണ് ഞാൻ ഉപയോഗിച്ചത്:

ഉയർന്ന ചിലവ് എന്നാൽ എപ്പോഴും ഉയർന്ന ഗുണമേന്മ എന്ന് അർത്ഥമില്ലെന്ന് ഫലങ്ങൾ കാണിക്കുന്നു.

ഡാറ്റാ ഫലങ്ങൾ:

ഞാൻ അഞ്ച് മോഡലുകളെ GPT-4o-യുമായി താരതമ്യം ചെയ്തു. അവയുടെ വെയിറ്റഡ് ആവറേജ് സ്കോറുകൾ താഴെ പറയുന്നവയാണ്:

ക്ലാസിഫിക്കേഷൻ ജോലികളിൽ GPT-4o-യും Qwen3-32B-യും തമ്മിലുള്ള വ്യത്യാസം വളരെ കുറവാണ്. എന്നാൽ റീസണിംഗിൽ GPT-4o വ്യക്തമായ മുന്നേറ്റം നടത്തുന്നു.

ചിലവ് വരുത്തുന്ന ആഘാതം:

പ്രതിമാസം 47 ദശലക്ഷം ഇൻപുട്ട് ടോക്കണുകളും 12 ദശലക്ഷം ഔട്ട്പുട്ട് ടോക്കണുകളും അടിസ്ഥാനമാക്കി ഞാൻ ചിലവ് കണക്കാക്കി.

ഒരേ ഗുണമേന്മ നിലനിർത്തിക്കൊണ്ട് തന്നെ എന്റെ $4,200 ബില്ല് $339 ആയി കുറയ്ക്കാമായിരുന്നു.

എന്റെ പൈപ്പ്‌ലൈൻ ഞാൻ എങ്ങനെ പരിഷ്കരിച്ചു:

ഞാൻ ഒരു ടിയർഡ് റൂട്ടിംഗ് സിസ്റ്റത്തിലേക്ക് (tiered routing system) മാറി. ജോലിയുടെ കാഠിന്യം നിർണ്ണയിക്കാൻ ഞാൻ ഒരു ചെറിയ മോഡൽ ഉപയോഗിക്കുന്നു.

ഞാൻ സെമാന്റിക് കാഷിംഗും (semantic caching) ചേർത്തു. സമാനമായ ചോദ്യങ്ങൾക്ക് മറുപടികൾ വീണ്ടും ഉപയോഗിക്കാൻ ഇത് എന്നെ അനുവദിക്കുന്നു. ഇത് എന്റെ LLM ഹിറ്റുകൾ 40% കുറച്ചു.

എന്റെ തീരുമാന സഹായി:

കുറഞ്ഞ ചിലവുള്ള മോഡലുകൾക്ക് പലപ്പോഴും മികച്ച ലേറ്റൻസി (latency) ഉണ്ടാകാറുണ്ട്. നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് വേഗത്തിലുള്ള മറുപടികൾ ആവശ്യമാണെങ്കിൽ, തിരഞ്ഞെടുക്കുന്നതിന് മുമ്പ് സെക്കൻഡിൽ എത്ര ടോക്കണുകൾ ലഭിക്കുന്നു എന്ന് പരിശോധിക്കുക.

സ്രോതസ്സ്: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a