ਮੈਂ GPT-4o ਦੇ ਵਿਰੁੱਧ Qwen ਦਾ ਬੈਂਚਮਾਰਕ ਕੀਤਾ

ਮੈਨੂੰ ਇੱਕ ਸਧਾਰਨ ਕੰਮ ਲਈ OpenAI ਤੋਂ $4,200 ਦਾ ਮਹੀਨਾਵਾਰ ਬਿੱਲ ਆਇਆ। ਇਸ ਨੇ ਮੈਨੂੰ ਹੋਰ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰ ਦਿੱਤਾ।

ਮੈਂ Qwen ਅਤੇ GPT-4o ਦੀ ਤੁਲਨਾ ਕਰਨ ਵਿੱਚ ਛੇ ਹਫ਼ਤੇ ਲਗਾਏ। ਮੈਂ ਪੰਜ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ 1,247 ਪ੍ਰੋਂਪਟਸ ਦੀ ਵਰਤੋਂ ਕੀਤੀ:

ਨਤੀਜੇ ਦਿਖਾਉਂਦੇ ਹਨ ਕਿ ਉੱਚੀ ਲਾਗਤ ਦਾ ਮਤਲਬ ਹਮੇਸ਼ਾ ਉੱਚੀ ਗੁਣਵੱਤਾ ਨਹੀਂ ਹੁੰਦਾ।

ਡੇਟਾ ਦੇ ਨਤੀਜੇ:

ਮੈਂ GPT-4o ਦੇ ਵਿਰੁੱਧ ਪੰਜ ਮਾਡਲਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ। ਇੱਥੇ ਵိတ်ਡ ਐਵਰੇਜ (weighted average) ਸਕੋਰ ਹਨ:

ਵਰਗੀਕਰਨ ਦੇ ਕੰਮਾਂ ਵਿੱਚ GPT-4o ਅਤੇ Qwen3-32B ਵਿਚਕਾਰ ਅੰਤਰ ਬਹੁਤ ਘੱਟ ਹੈ। ਹਾਲਾਂਕਿ, ਤਰਕ (reasoning) ਦੇ ਮਾਮਲੇ ਵਿੱਚ GPT-4o ਕਾਫੀ ਅੱਗੇ ਹੈ।

ਲਾਗਤ ਦਾ ਪ੍ਰਭਾਵ:

ਮੈਂ ਪ੍ਰਤੀ ਮਹੀਨਾ 47 ਮਿਲੀਅਨ ਇਨਪੁਟ ਟੋਕਨਸ ਅਤੇ 12 ਮਿਲੀਅਨ ਆਉਟਪੁੱਟ ਟੋਕਨਸ ਦੇ ਅਧਾਰ 'ਤੇ ਲਾਗਤ ਦਾ ਅਨੁਮਾਨ ਲਗਾਇਆ।

ਉਹੀ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਕੇ ਮੇਰਾ $4,200 ਦਾ ਬਿੱਲ ਸਿਰਫ $339 ਹੋ ਸਕਦਾ ਸੀ।

ਮੈਂ ਆਪਣੀ ਪਾਈਪਲਾਈਨ ਨੂੰ ਕਿਵੇਂ ਸੁਧਾਰਿਆ:

ਮੈਂ ਇੱਕ ਟਾਇਰਡ ਰੂਟਿੰਗ ਸਿਸਟਮ (tiered routing system) ਵੱਲ ਵਧ ਗਿਆ। ਮੈਂ ਕੰਮ ਦੀ ਮੁਸ਼ਕਲ ਨੂੰ ਪਰਖਣ ਲਈ ਇੱਕ ਛੋਟੇ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹਾਂ।

ਮੈਂ ਸੈਮੈਂਟਿਕ ਕੈਸ਼ਿੰਗ (semantic caching) ਵੀ ਜੋੜੀ। ਇਹ ਮੈਨੂੰ ਸਮਾਨ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ਉੱਤਰਾਂ ਦੀ ਮੁੜ ਵਰਤੋਂ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਇਸ ਨੇ ਮੇਰੇ LLM ਹਿੱਟਸ ਨੂੰ 40% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।

ਮੇਰੀ ਫੈਸਲਾ ਲੈਣ ਲਈ ਗਾਈਡ:

ਸਸਤੇ ਮਾਡਲਾਂ ਵਿੱਚ ਅਕਸਰ ਲੇਟੈਂਸੀ (latency) ਵੀ ਬਿਹਤਰ ਹੁੰਦੀ ਹੈ। ਜੇਕਰ ਤੁਹਾਡੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਤੇਜ਼ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਚੁਣਨ ਤੋਂ ਪਹਿਲਾਂ ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਦੀ ਜਾਂਚ ਕਰੋ।

ਸਰੋਤ: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a