ਮੈਂ GPT-4o ਦੇ ਮੁਕਾਬਲੇ Qwen ਦਾ ਬੈਂਚਮਾਰਕ ਕੀਤਾ

Machine-translated. Read the original.

📅3 hours ago⏱2 min read

ਮੈਂ GPT-4o ਦੇ ਵਿਰੁੱਧ Qwen ਦਾ ਬੈਂਚਮਾਰਕ ਕੀਤਾ

ਮੈਨੂੰ ਇੱਕ ਸਧਾਰਨ ਕੰਮ ਲਈ OpenAI ਤੋਂ $4,200 ਦਾ ਮਹੀਨਾਵਾਰ ਬਿੱਲ ਆਇਆ। ਇਸ ਨੇ ਮੈਨੂੰ ਹੋਰ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰ ਦਿੱਤਾ।

ਮੈਂ Qwen ਅਤੇ GPT-4o ਦੀ ਤੁਲਨਾ ਕਰਨ ਵਿੱਚ ਛੇ ਹਫ਼ਤੇ ਲਗਾਏ। ਮੈਂ ਪੰਜ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ 1,247 ਪ੍ਰੋਂਪਟਸ ਦੀ ਵਰਤੋਂ ਕੀਤੀ:

ਵਰਗੀਕਰਨ (Classification)
ਐਕਸਟਰੈਕਸ਼ਨ (Extraction)
ਸਾਰਾਂਸ਼ (Summarization)
ਕੋਡ ਜਨਰੇਸ਼ਨ (Code generation)
ਤਰਕ (Reasoning)

ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਉੱਚੀ ਲਾਗਤ ਦਾ ਮਤਲਬ ਹਮੇਸ਼ਾ ਉੱਚੀ ਗੁਣਵੱਤਾ ਨਹੀਂ ਹੁੰਦਾ।

ਡੇਟਾ ਦੇ ਨਤੀਜੇ:

ਮੈਂ GPT-4o ਦੇ ਵਿਰੁੱਧ ਪੰਜ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ। ਇੱਥੇ ਵိတ်ਡ ਐਵਰੇਜ (weighted average) ਸਕੋਰ ਹਨ:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

ਵਰਗੀਕਰਨ ਦੇ ਕੰਮਾਂ ਵਿੱਚ GPT-4o ਅਤੇ Qwen3-32B ਵਿਚਕਾਰ ਅੰਤਰ ਬਹੁਤ ਘੱਟ ਹੈ। ਹਾਲਾਂਕਿ, ਤਰਕ (reasoning) ਦੇ ਮਾਮਲੇ ਵਿੱਚ GPT-4o ਕਾਫੀ ਅੱਗੇ ਹੈ।

ਲਾਗਤ ਦਾ ਪ੍ਰਭਾਵ:

ਮੈਂ ਪ੍ਰਤੀ ਮਹੀਨਾ 47 ਮਿਲੀਅਨ ਇਨਪੁਟ ਟੋਕਨਸ ਅਤੇ 12 ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨਸ ਦੇ ਅਧਾਰ 'ਤੇ ਲਾਗਤ ਦਾ ਅਨੁਮਾਨ ਲਗਾਇਆ।

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

ਉਹੀ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਕੇ ਮੇਰਾ $4,200 ਦਾ ਬਿੱਲ ਸਿਰਫ $339 ਹੋ ਸਕਦਾ ਸੀ।

ਮੈਂ ਆਪਣੀ ਪਾਈਪਲਾਈਨ ਨੂੰ ਕਿਵੇਂ ਸੁਧਾਰਿਆ:

ਮੈਂ ਇੱਕ ਟਾਇਰਡ ਰੂਟਿੰਗ ਸਿਸਟਮ (tiered routing system) ਵੱਲ ਵਧ ਗਿਆ। ਮੈਂ ਕੰਮ ਦੀ ਮੁਸ਼ਕਲ ਨੂੰ ਪਰਖਣ ਲਈ ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ।

ਆਸਾਨ ਕੰਮ DeepSeek V4 Flash ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।
ਦਰਮਿਆਨੇ ਕੰਮ Qwen3-32B ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।
ਔਖੇ ਕੰਮ DeepSeek V4 Pro ਜਾਂ GPT-4o ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।

ਮੈਂ ਸੈਮੈਂਟਿਕ ਕੈਸ਼ਿੰਗ (semantic caching) ਵੀ ਜੋੜੀ। ਇਹ ਮੈਨੂੰ ਸਮਾਨ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਉੱਤਰਾਂ ਦੀ ਮੁੜ ਵਰਤੋਂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਸ ਨੇ ਮੇਰੇ LLM ਹਿੱਟਸ ਨੂੰ 40% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।

ਮੇਰੀ ਫੈਸਲਾ ਲੈਣ ਲਈ ਗਾਈਡ:

ਜੇਕਰ ਤੁਹਾਨੂੰ ਉੱਚ ਗੁਣਵੱਤਾ ਦੀ ਲੋੜ ਹੈ ਅਤੇ ਬਜਟ ਲਚਕਦਾਰ ਹੈ: GPT-4o ਜਾਂ DeepSeek V4 Pro ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਜੇਕਰ ਤੁਹਾਨੂੰ ਗੁਣਵੱਤਾ ਚਾਹੀਦੀ ਹੈ ਪਰ ਪੈਸੇ ਬਚਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ: ਸਮਾਰਟ ਰੂਟਿੰਗ ਦੇ ਨਾਲ Qwen3-32B ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਜੇਕਰ ਲਾਗਤ ਤੁਹਾਡੀ ਇਕਲੌਤੀ ਤਰਜੀਹ ਹੈ: DeepSeek V4 Flash ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਜੇਕਰ ਤੁਹਾਡੇ ਕੋਲ ਬਹੁਤ ਵੱਡਾ ਪੱਧਰ (scale) ਅਤੇ ਸਧਾਰਨ ਕੰਮ ਹਨ: GLM-4 Plus ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਸਸਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਅਕਸਰ ਲੇਟੈਂਸੀ (latency) ਵੀ ਬਿਹਤਰ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਹਾਡੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਤੇਜ਼ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਦੀ ਜਾਂਚ ਕਰੋ।

ਸਰੋਤ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

ਮੈਂ GPT-4o ਦੇ ਮੁਕਾਬਲੇ Qwen ਦਾ ਬੈਂਚਮਾਰਕ ਕੀਤਾ

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

ਮੈਂ ਇਸ RAG ਸੈੱਟਅੱਪ ਨਾਲ ਆਪਣੇ AI ਖਰਚੇ 60% ਕਿਵੇਂ ਘਟਾਏ

𝗛𝗼𝘄 𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗪𝗼𝗿𝗱𝗣𝗿𝗲𝘀𝘀 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁 𝗼𝗻 𝗮 𝗕𝘂𝗱𝗴𝗲𝘁

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀