મેં GPT-4o સામે Qwen નું બેન્ચમાર્કિંગ કર્યું
એક સાદા કાર્ય માટે મારે OpenAI ને દર મહિને $4,200 નું બિલ ચૂકવવું પડ્યું. આના કારણે મને અન્ય મોડલ્સ ટેસ્ટ કરવા માટે મજબૂર બનવું પડ્યું.
મેં Qwen અને GPT-4o ની સરખામણી કરવામાં છ અઠવાડિયા વિતાવ્યા. મેં પાંચ શ્રેણીઓમાં 1,247 પ્રોમ્પ્ટ્સનો ઉપયોગ કર્યો:
- વર્ગીકરણ (Classification)
- એક્સટ્રેક્શન (Extraction)
- સારાંશ (Summarization)
- કોડ જનરેશન (Code generation)
- તર્કશક્તિ (Reasoning)
પરિણામો દર્શાવે છે કે વધુ ખર્ચનો અર્થ હંમેશા વધુ ગુણવત્તા હોતો નથી.
ડેટાના પરિણામો:
મેં GPT-4o સામે પાંચ મોડલ્સની સરખામણી કરી. અહીં વိတ်્ટેડ એવરેજ સ્કોર્સ છે:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
વર્ગીકરણના કાર્યોમાં GPT-4o અને Qwen3-32B વચ્ચેનો તફાવત ઓછો છે. જોકે, તર્કશક્તિ (reasoning) માં GPT-4o નોંધપાત્ર રીતે આગળ છે.
ખર્ચની અસર:
મેં દર મહિને 47 મિલિયન ઇનપુટ ટોકન્સ અને 12 મિલિયન આઉટપુટ ટોકન્સના આધારે ખર્ચનું અનુમાન લગાવ્યું.
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
સમાન ગુણવત્તા સાથે મારું $4,200 નું બિલ માત્ર $339 હોઈ શક્યું હોત.
મેં મારી પાઇપલાઇન કેવી રીતે સુધારી:
હું ટાયર્ડ રાઉટિંગ સિસ્ટમ (tiered routing system) પર શિફ્ટ થયો. હું કાર્યની મુશ્કેલી નક્કી કરવા માટે નાના મોડલનો ઉપયોગ કરું છું.
- સરળ કાર્યો DeepSeek V4 Flash ને જાય છે.
- મધ્યમ કાર્યો Qwen3-32B ને જાય છે.
- અઘરા કાર્યો DeepSeek V4 Pro અથવા GPT-4o ને જાય છે.
મેં સિમેન્ટિક કેશિંગ (semantic caching) પણ ઉમેર્યું. આનાથી મને સમાન ક્વેરીઝ માટે પ્રતિસાદોનો ફરીથી ઉપયોગ કરવાની મંજૂરી મળે છે. આનાથી મારા LLM હિટ્સમાં 40% નો ઘટાડો થયો.
મારો નિર્ણય માર્ગદર્શિકા:
- જો તમારે શ્રેષ્ઠ ગુણવત્તાની જરૂર હોય અને બજેટ લવચીક હોય: GPT-4o અથવા DeepSeek V4 Pro નો ઉપયોગ કરો.
- જો તમારે ગુણવત્તાની જરૂર હોય પરંતુ પૈસા બચાવવા માંગતા હોવ: સ્માર્ટ રાઉટિંગ સાથે Qwen3-32B નો ઉપયોગ કરો.
- જો ખર્ચ તમારી એકમાત્ર પ્રાથમિકતા હોય: DeepSeek V4 Flash નો ઉપયોગ કરો.
- જો તમારી પાસે વિશાળ સ્કેલ અને સરળ કાર્યો હોય: GLM-4 Plus નો ઉપયોગ કરો.
સસ્તા મોડલ્સમાં ઘણીવાર લેટન્સી (latency) પણ વધુ સારી હોય છે. જો તમારા વપરાશકર્તાઓને ઝડપી પ્રતિસાદની જરૂર હોય, તો પસંદગી કરતા પહેલા 'ટોકન્સ પર સેકન્ડ' તપાસી લો.
સ્ત્રોત: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a