ਮੈਂ 5 ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਰਾਹੀਂ 10 AI ਮਾਡਲਾਂ ਦਾ ਟੈਸਟ ਕੀਤਾ
ਮੈਂ 2026 ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਕੋਡਿੰਗ AI ਮਾਡਲਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਤਿੰਨ-ਦਿਨਾਂ ਦਾ ਬੈਂਚਮਾਰਕ ਚਲਾਇਆ। ਮੈਂ 5 ਵੱਖ-ਵੱਖ ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਵਿੱਚ 10 ਮਾਡਲਾਂ ਦਾ ਟੈਸਟ ਕੀਤਾ। ਮੈਂ ਇਹ ਦੇਖਣਾ ਚਾਹੁੰਦਾ ਸੀ ਕਿ ਕੀ ਉੱਚੀਆਂ ਕੀਮਤਾਂ ਬਿਹਤਰ ਕੋਡ ਵੱਲ ਲੈ ਜਾਂਦੀਆਂ ਹਨ।
ਮੈਂ 50 ਸਕੋਰ ਕੀਤੇ ਗਏ ਇੰਟਰੈਕਸ਼ਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਮੈਂ ਸਹੀਪਨ, ਕੋਡ ਦੀ ਗੁਣਵੱਤਾ, ਡਾਕੂਮੈਂਟੇਸ਼ਨ ਅਤੇ ਐਜ ਕੇਸਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ।
ਮੇਰੇ ਦੁਆਰਾ ਟੈਸਟ ਕੀਤੇ ਗਏ ਮਾਡਲ:
- DeepSeek V4 Flash ($0.25)
- DeepSeek Coder ($0.25)
- Qwen3-Coder-30B ($0.35)
- DeepSeek-R1 ($2.50)
- Kimi K2.5 ($3.00)
- (ਅਤੇ 5 ਹੋਰ)
ਨਤੀਜੇ:
- Qwen3-Coder-30B: 8.8 ਸਕੋਰ ($0.35)
- DeepSeek V4 Flash: 8.7 ਸਕੋਰ ($0.25)
- DeepSeek Coder: 8.6 ਸਕੋਰ ($0.25)
- DeepSeek-R1: 9.4 ਸਕੋਰ ($2.50)
- Kimi K2.5: 9.0 ਸਕੋਰ ($3.00)
ਮੁੱਖ ਨਤੀਜੇ:
- ਕੀਮਤ ਦਾ ਮਤਲਬ ਗੁਣਵੱਤਾ ਨਹੀਂ ਹੈ। ਕੀਮਤ ਅਤੇ ਸਕੋਰ ਵਿਚਕਾਰ ਸਬੰਧ ਬਹੁਤ ਕਮਜ਼ੋਰ ਹੈ।
- ਤੁਸੀਂ ਮਹਿੰਗੇ ਮਾਡਲਾਂ ਲਈ ਲਗਜ਼ਰੀ ਟੈਕਸ ਦਿੰਦੇ ਹੋ। Kimi K2.5 ਦੀ ਕੀਮਤ DeepSeek V4 Flash ਨਾਲੋਂ 12 ਗੁਣਾ ਜ਼ਿਆਦਾ ਹੈ ਪਰ ਇਸਦਾ ਸਕੋਰ ਸਿਰਫ਼ 0.3 ਅੰਕ ਹੀ ਜ਼ਿਆਦਾ ਹੈ।
- ਮੁਸ਼ਕਲ ਟਾਸਕਾਂ ਵਿੱਚ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਜਿੱਤਦੇ ਹਨ। DeepSeek-R1 ਗੁੰਝਲਦਾਰ ਐਲਗੋਰਿਦਮ ਅਤੇ ਸੁਰੱਖਿਆ ਸਮੀਖਿਆਵਾਂ ਵਿੱਚ ਉੱਤਮ ਹੈ। ਡੂੰਘੇ ਲੌਜਿਕ ਕੰਮ ਲਈ ਇਹ ਉੱਚੀ ਕੀਮਤ ਦੇ ਲਾਇਕ ਹੈ।
- ਰੋਜ਼ਾਨਾ ਦੇ ਟਾਸਕਾਂ ਵਿੱਚ ਸਸਤੇ ਮਾਡਲ ਜਿੱਤਦੇ ਹਨ। DeepSeek V4 Flash ਅਤੇ Qwen3-Coder-30B ਡੀਬੱਗਿੰਗ ਅਤੇ ਸਟੈਂਡਰਡ ਫੰਕਸ਼ਨਾਂ ਲਈ ਵਧੀਆ ਹਨ।
ਟਾਸਕ ਦਾ ਵੇਰਵਾ:
- Python Recursion: DeepSeek-R1 ਨੇ ਸੰਪੂਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਨਾਲ ਜਿੱਤ ਪ੍ਰਾਪਤ ਕੀਤੀ।
- JavaScript Bug Fix: DeepSeek V4 Flash ਅਤੇ Qwen3-Coder-30B ਸਭ ਤੋਂ ਵਧੀਆ ਕੀਮਤ ਲਈ ਬਰਾਬਰ ਰਹੇ।
- TypeScript Algorithms: DeepSeek-R1 ਨੇ ਸਭ ਤੋਂ ਵਧੀਆ ਟਾਈਪ ਸੇਫਟੀ ਪ੍ਰਦਾਨ ਕੀਤੀ।
- Go Security Review: DeepSeek-R1 ਨੇ ਸਾਰੀਆਂ ਸਮੱਸਿਆਵਾਂ ਲੱਭੀਆਂ ਅਤੇ ਟੈਸਟਾਂ ਦਾ ਸੁਝਾਅ ਦਿੱਤਾ।
ਸੋਸ਼ਲ ਮੀਡੀਆ 'ਤੇ ਚੱਲ ਰਹੀ ਹਾਈਪ ਦੇ ਪਿੱਛੇ ਲੱਗਣਾ ਬੰਦ ਕਰੋ। ਆਪਣੇ ਟੂਲ ਚੁਣਨ ਲਈ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਰੋਜ਼ਾਨਾ ਵਰਤੋਂ ਲਈ ਕਿਸੇ ਚੀਜ਼ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਸਸਤੇ, ਉੱਚੇ ਸਕੋਰ ਵਾਲੇ ਮਾਡਲਾਂ ਦੀ ਚੋਣ ਕਰੋ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਗਣਿਤ ਜਾਂ ਲੌਜਿਕ ਦੀ ਕਿਸੇ ਮੁਸ਼ਕਲ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਸਰੋਤ: https://dev.to/rarenode/i-ran-10-ai-models-through-5-coding-tasks-heres-the-full-data-4ie6
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi