𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

મેં GPT-4o સામે Qwen નું બેન્ચમાર્કિંગ કર્યું

એક સાદા કાર્ય માટે મારે OpenAI ને દર મહિને $4,200 નું બિલ ચૂકવવું પડ્યું. આના કારણે મને અન્ય મોડલ્સ ટેસ્ટ કરવા માટે મજબૂર બનવું પડ્યું.

મેં Qwen અને GPT-4o ની સરખામણી કરવામાં છ અઠવાડિયા વિતાવ્યા. મેં પાંચ શ્રેણીઓમાં 1,247 પ્રોમ્પ્ટ્સનો ઉપયોગ કર્યો:

વર્ગીકરણ (Classification)
એક્સટ્રેક્શન (Extraction)
સારાંશ (Summarization)
કોડ જનરેશન (Code generation)
તર્કશક્તિ (Reasoning)

પરિણામો દર્શાવે છે કે વધુ ખર્ચનો અર્થ હંમેશા વધુ ગુણવત્તા હોતો નથી.

ડેટાના પરિણામો:

મેં GPT-4o સામે પાંચ મોડલ્સની સરખામણી કરી. અહીં વိတ်્ટેડ એવરેજ સ્કોર્સ છે:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

વર્ગીકરણના કાર્યોમાં GPT-4o અને Qwen3-32B વચ્ચેનો તફાવત ઓછો છે. જોકે, તર્કશક્તિ (reasoning) માં GPT-4o નોંધપાત્ર રીતે આગળ છે.

ખર્ચની અસર:

મેં દર મહિને 47 મિલિયન ઇનપુટ ટોકન્સ અને 12 મિલિયન આઉટપુટ ટોકન્સના આધારે ખર્ચનું અનુમાન લગાવ્યું.

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

સમાન ગુણવત્તા સાથે મારું $4,200 નું બિલ માત્ર $339 હોઈ શક્યું હોત.

મેં મારી પાઇપલાઇન કેવી રીતે સુધારી:

હું ટાયર્ડ રાઉટિંગ સિસ્ટમ (tiered routing system) પર શિફ્ટ થયો. હું કાર્યની મુશ્કેલી નક્કી કરવા માટે નાના મોડલનો ઉપયોગ કરું છું.

સરળ કાર્યો DeepSeek V4 Flash ને જાય છે.
મધ્યમ કાર્યો Qwen3-32B ને જાય છે.
અઘરા કાર્યો DeepSeek V4 Pro અથવા GPT-4o ને જાય છે.

મેં સિમેન્ટિક કેશિંગ (semantic caching) પણ ઉમેર્યું. આનાથી મને સમાન ક્વેરીઝ માટે પ્રતિસાદોનો ફરીથી ઉપયોગ કરવાની મંજૂરી મળે છે. આનાથી મારા LLM હિટ્સમાં 40% નો ઘટાડો થયો.

મારો નિર્ણય માર્ગદર્શિકા:

જો તમારે શ્રેષ્ઠ ગુણવત્તાની જરૂર હોય અને બજેટ લવચીક હોય: GPT-4o અથવા DeepSeek V4 Pro નો ઉપયોગ કરો.
જો તમારે ગુણવત્તાની જરૂર હોય પરંતુ પૈસા બચાવવા માંગતા હોવ: સ્માર્ટ રાઉટિંગ સાથે Qwen3-32B નો ઉપયોગ કરો.
જો ખર્ચ તમારી એકમાત્ર પ્રાથમિકતા હોય: DeepSeek V4 Flash નો ઉપયોગ કરો.
જો તમારી પાસે વિશાળ સ્કેલ અને સરળ કાર્યો હોય: GLM-4 Plus નો ઉપયોગ કરો.

સસ્તા મોડલ્સમાં ઘણીવાર લેટન્સી (latency) પણ વધુ સારી હોય છે. જો તમારા વપરાશકર્તાઓને ઝડપી પ્રતિસાદની જરૂર હોય, તો પસંદગી કરતા પહેલા 'ટોકન્સ પર સેકન્ડ' તપાસી લો.

સ્ત્રોત: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

𝗛𝗼𝘄 𝗜 𝗖𝘂𝘁 𝗠𝘆 𝗔𝗜 𝗖𝗼𝘀𝘁𝘀 𝟲𝟬% 𝗪𝗶𝘁𝗵 𝗧𝗵𝗶𝘀 𝗥𝗔𝗚 𝗦𝗲𝘁𝘂𝗽

મેં ઓછા બજેટમાં વર્ડપ્રેસ AI ચેટબોટ કેવી રીતે બનાવ્યો

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀