મેં GPT-4o સામે Qwen નું બેન્ચમાર્કિંગ કર્યું

એક સાદા કાર્ય માટે મારે OpenAI ને દર મહિને $4,200 નું બિલ ચૂકવવું પડ્યું. આના કારણે મને અન્ય મોડલ્સ ટેસ્ટ કરવા માટે મજબૂર બનવું પડ્યું.

મેં Qwen અને GPT-4o ની સરખામણી કરવામાં છ અઠવાડિયા વિતાવ્યા. મેં પાંચ શ્રેણીઓમાં 1,247 પ્રોમ્પ્ટ્સનો ઉપયોગ કર્યો:

પરિણામો દર્શાવે છે કે વધુ ખર્ચનો અર્થ હંમેશા વધુ ગુણવત્તા હોતો નથી.

ડેટાના પરિણામો:

મેં GPT-4o સામે પાંચ મોડલ્સની સરખામણી કરી. અહીં વိတ်્ટેડ એવરેજ સ્કોર્સ છે:

વર્ગીકરણના કાર્યોમાં GPT-4o અને Qwen3-32B વચ્ચેનો તફાવત ઓછો છે. જોકે, તર્કશક્તિ (reasoning) માં GPT-4o નોંધપાત્ર રીતે આગળ છે.

ખર્ચની અસર:

મેં દર મહિને 47 મિલિયન ઇનપુટ ટોકન્સ અને 12 મિલિયન આઉટપુટ ટોકન્સના આધારે ખર્ચનું અનુમાન લગાવ્યું.

સમાન ગુણવત્તા સાથે મારું $4,200 નું બિલ માત્ર $339 હોઈ શક્યું હોત.

મેં મારી પાઇપલાઇન કેવી રીતે સુધારી:

હું ટાયર્ડ રાઉટિંગ સિસ્ટમ (tiered routing system) પર શિફ્ટ થયો. હું કાર્યની મુશ્કેલી નક્કી કરવા માટે નાના મોડલનો ઉપયોગ કરું છું.

મેં સિમેન્ટિક કેશિંગ (semantic caching) પણ ઉમેર્યું. આનાથી મને સમાન ક્વેરીઝ માટે પ્રતિસાદોનો ફરીથી ઉપયોગ કરવાની મંજૂરી મળે છે. આનાથી મારા LLM હિટ્સમાં 40% નો ઘટાડો થયો.

મારો નિર્ણય માર્ગદર્શિકા:

સસ્તા મોડલ્સમાં ઘણીવાર લેટન્સી (latency) પણ વધુ સારી હોય છે. જો તમારા વપરાશકર્તાઓને ઝડપી પ્રતિસાદની જરૂર હોય, તો પસંદગી કરતા પહેલા 'ટોકન્સ પર સેકન્ડ' તપાસી લો.

સ્ત્રોત: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a