ਮੈਂ GPT-4o ਦੇ ਵਿਰੁੱਧ Qwen ਦਾ ਬੈਂਚਮਾਰਕ ਕੀਤਾ
ਮੈਨੂੰ ਇੱਕ ਸਧਾਰਨ ਕੰਮ ਲਈ OpenAI ਤੋਂ $4,200 ਦਾ ਮਹੀਨਾਵਾਰ ਬਿੱਲ ਆਇਆ। ਇਸ ਨੇ ਮੈਨੂੰ ਹੋਰ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰ ਦਿੱਤਾ।
ਮੈਂ Qwen ਅਤੇ GPT-4o ਦੀ ਤੁਲਨਾ ਕਰਨ ਵਿੱਚ ਛੇ ਹਫ਼ਤੇ ਲਗਾਏ। ਮੈਂ ਪੰਜ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ 1,247 ਪ੍ਰੋਂਪਟਸ ਦੀ ਵਰਤੋਂ ਕੀਤੀ:
- ਵਰਗੀਕਰਨ (Classification)
- ਐਕਸਟਰੈਕਸ਼ਨ (Extraction)
- ਸਾਰਾਂਸ਼ (Summarization)
- ਕੋਡ ਜਨਰੇਸ਼ਨ (Code generation)
- ਤਰਕ (Reasoning)
ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਉੱਚੀ ਲਾਗਤ ਦਾ ਮਤਲਬ ਹਮੇਸ਼ਾ ਉੱਚੀ ਗੁਣਵੱਤਾ ਨਹੀਂ ਹੁੰਦਾ।
ਡੇਟਾ ਦੇ ਨਤੀਜੇ:
ਮੈਂ GPT-4o ਦੇ ਵਿਰੁੱਧ ਪੰਜ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ। ਇੱਥੇ ਵိတ်ਡ ਐਵਰੇਜ (weighted average) ਸਕੋਰ ਹਨ:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
ਵਰਗੀਕਰਨ ਦੇ ਕੰਮਾਂ ਵਿੱਚ GPT-4o ਅਤੇ Qwen3-32B ਵਿਚਕਾਰ ਅੰਤਰ ਬਹੁਤ ਘੱਟ ਹੈ। ਹਾਲਾਂਕਿ, ਤਰਕ (reasoning) ਦੇ ਮਾਮਲੇ ਵਿੱਚ GPT-4o ਕਾਫੀ ਅੱਗੇ ਹੈ।
ਲਾਗਤ ਦਾ ਪ੍ਰਭਾਵ:
ਮੈਂ ਪ੍ਰਤੀ ਮਹੀਨਾ 47 ਮਿਲੀਅਨ ਇਨਪੁਟ ਟੋਕਨਸ ਅਤੇ 12 ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨਸ ਦੇ ਅਧਾਰ 'ਤੇ ਲਾਗਤ ਦਾ ਅਨੁਮਾਨ ਲਗਾਇਆ।
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
ਉਹੀ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਕੇ ਮੇਰਾ $4,200 ਦਾ ਬਿੱਲ ਸਿਰਫ $339 ਹੋ ਸਕਦਾ ਸੀ।
ਮੈਂ ਆਪਣੀ ਪਾਈਪਲਾਈਨ ਨੂੰ ਕਿਵੇਂ ਸੁਧਾਰਿਆ:
ਮੈਂ ਇੱਕ ਟਾਇਰਡ ਰੂਟਿੰਗ ਸਿਸਟਮ (tiered routing system) ਵੱਲ ਵਧ ਗਿਆ। ਮੈਂ ਕੰਮ ਦੀ ਮੁਸ਼ਕਲ ਨੂੰ ਪਰਖਣ ਲਈ ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ।
- ਆਸਾਨ ਕੰਮ DeepSeek V4 Flash ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।
- ਦਰਮਿਆਨੇ ਕੰਮ Qwen3-32B ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।
- ਔਖੇ ਕੰਮ DeepSeek V4 Pro ਜਾਂ GPT-4o ਨੂੰ ਭੇਜੇ ਜਾਂਦੇ ਹਨ।
ਮੈਂ ਸੈਮੈਂਟਿਕ ਕੈਸ਼ਿੰਗ (semantic caching) ਵੀ ਜੋੜੀ। ਇਹ ਮੈਨੂੰ ਸਮਾਨ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਉੱਤਰਾਂ ਦੀ ਮੁੜ ਵਰਤੋਂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਸ ਨੇ ਮੇਰੇ LLM ਹਿੱਟਸ ਨੂੰ 40% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।
ਮੇਰੀ ਫੈਸਲਾ ਲੈਣ ਲਈ ਗਾਈਡ:
- ਜੇਕਰ ਤੁਹਾਨੂੰ ਉੱਚ ਗੁਣਵੱਤਾ ਦੀ ਲੋੜ ਹੈ ਅਤੇ ਬਜਟ ਲਚਕਦਾਰ ਹੈ: GPT-4o ਜਾਂ DeepSeek V4 Pro ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਜੇਕਰ ਤੁਹਾਨੂੰ ਗੁਣਵੱਤਾ ਚਾਹੀਦੀ ਹੈ ਪਰ ਪੈਸੇ ਬਚਾਉਣਾ ਚਾਹੁੰਦੇ ਹੋ: ਸਮਾਰਟ ਰੂਟਿੰਗ ਦੇ ਨਾਲ Qwen3-32B ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਜੇਕਰ ਲਾਗਤ ਤੁਹਾਡੀ ਇਕਲੌਤੀ ਤਰਜੀਹ ਹੈ: DeepSeek V4 Flash ਦੀ ਵਰਤੋਂ ਕਰੋ।
- ਜੇਕਰ ਤੁਹਾਡੇ ਕੋਲ ਬਹੁਤ ਵੱਡਾ ਪੱਧਰ (scale) ਅਤੇ ਸਧਾਰਨ ਕੰਮ ਹਨ: GLM-4 Plus ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਸਸਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਅਕਸਰ ਲੇਟੈਂਸੀ (latency) ਵੀ ਬਿਹਤਰ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਹਾਡੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਤੇਜ਼ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਦੀ ਜਾਂਚ ਕਰੋ।
ਸਰੋਤ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a