𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

📅2 hours ago⏱1 min read

ਮੈਂ 5 ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਰਾਹੀਂ 10 AI ਮਾਡਲਾਂ ਦਾ ਟੈਸਟ ਕੀਤਾ

ਮੈਂ 2026 ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਕੋਡਿੰਗ AI ਮਾਡਲਾਂ ਨੂੰ ਲੱਭਣ ਲਈ ਤਿੰਨ-ਦਿਨਾਂ ਦਾ ਬੈਂਚਮਾਰਕ ਚਲਾਇਆ। ਮੈਂ 5 ਵੱਖ-ਵੱਖ ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਵਿੱਚ 10 ਮਾਡਲਾਂ ਦਾ ਟੈਸਟ ਕੀਤਾ। ਮੈਂ ਇਹ ਦੇਖਣਾ ਚਾਹੁੰਦਾ ਸੀ ਕਿ ਕੀ ਉੱਚੀਆਂ ਕੀਮਤਾਂ ਬਿਹਤਰ ਕੋਡ ਵੱਲ ਲੈ ਜਾਂਦੀਆਂ ਹਨ।

ਮੈਂ 50 ਸਕੋਰ ਕੀਤੇ ਗਏ ਇੰਟਰੈਕਸ਼ਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਮੈਂ ਸਹੀਪਨ, ਕੋਡ ਦੀ ਗੁਣਵੱਤਾ, ਡਾਕੂਮੈਂਟੇਸ਼ਨ ਅਤੇ ਐਜ ਕੇਸਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ।

ਮੇਰੇ ਦੁਆਰਾ ਟੈਸਟ ਕੀਤੇ ਗਏ ਮਾਡਲ:

DeepSeek V4 Flash ($0.25)
DeepSeek Coder ($0.25)
Qwen3-Coder-30B ($0.35)
DeepSeek-R1 ($2.50)
Kimi K2.5 ($3.00)
(ਅਤੇ 5 ਹੋਰ)

ਨਤੀਜੇ:

Qwen3-Coder-30B: 8.8 ਸਕੋਰ ($0.35)
DeepSeek V4 Flash: 8.7 ਸਕੋਰ ($0.25)
DeepSeek Coder: 8.6 ਸਕੋਰ ($0.25)
DeepSeek-R1: 9.4 ਸਕੋਰ ($2.50)
Kimi K2.5: 9.0 ਸਕੋਰ ($3.00)

ਮੁੱਖ ਨਤੀਜੇ:

ਕੀਮਤ ਦਾ ਮਤਲਬ ਗੁਣਵੱਤਾ ਨਹੀਂ ਹੈ। ਕੀਮਤ ਅਤੇ ਸਕੋਰ ਵਿਚਕਾਰ ਸਬੰਧ ਬਹੁਤ ਕਮਜ਼ੋਰ ਹੈ।
ਤੁਸੀਂ ਮਹਿੰਗੇ ਮਾਡਲਾਂ ਲਈ ਲਗਜ਼ਰੀ ਟੈਕਸ ਦਿੰਦੇ ਹੋ। Kimi K2.5 ਦੀ ਕੀਮਤ DeepSeek V4 Flash ਨਾਲੋਂ 12 ਗੁਣਾ ਜ਼ਿਆਦਾ ਹੈ ਪਰ ਇਸਦਾ ਸਕੋਰ ਸਿਰਫ਼ 0.3 ਅੰਕ ਹੀ ਜ਼ਿਆਦਾ ਹੈ।
ਮੁਸ਼ਕਲ ਟਾਸਕਾਂ ਵਿੱਚ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਜਿੱਤਦੇ ਹਨ। DeepSeek-R1 ਗੁੰਝਲਦਾਰ ਐਲਗੋਰਿਦਮ ਅਤੇ ਸੁਰੱਖਿਆ ਸਮੀਖਿਆਵਾਂ ਵਿੱਚ ਉੱਤਮ ਹੈ। ਡੂੰਘੇ ਲੌਜਿਕ ਕੰਮ ਲਈ ਇਹ ਉੱਚੀ ਕੀਮਤ ਦੇ ਲਾਇਕ ਹੈ।
ਰੋਜ਼ਾਨਾ ਦੇ ਟਾਸਕਾਂ ਵਿੱਚ ਸਸਤੇ ਮਾਡਲ ਜਿੱਤਦੇ ਹਨ। DeepSeek V4 Flash ਅਤੇ Qwen3-Coder-30B ਡੀਬੱਗਿੰਗ ਅਤੇ ਸਟੈਂਡਰਡ ਫੰਕਸ਼ਨਾਂ ਲਈ ਵਧੀਆ ਹਨ।

ਟਾਸਕ ਦਾ ਵੇਰਵਾ:

Python Recursion: DeepSeek-R1 ਨੇ ਸੰਪੂਰਨ ਵਿਸ਼ਲੇਸ਼ਣ ਨਾਲ ਜਿੱਤ ਪ੍ਰਾਪਤ ਕੀਤੀ।
JavaScript Bug Fix: DeepSeek V4 Flash ਅਤੇ Qwen3-Coder-30B ਸਭ ਤੋਂ ਵਧੀਆ ਕੀਮਤ ਲਈ ਬਰਾਬਰ ਰਹੇ।
TypeScript Algorithms: DeepSeek-R1 ਨੇ ਸਭ ਤੋਂ ਵਧੀਆ ਟਾਈਪ ਸੇਫਟੀ ਪ੍ਰਦਾਨ ਕੀਤੀ।
Go Security Review: DeepSeek-R1 ਨੇ ਸਾਰੀਆਂ ਸਮੱਸਿਆਵਾਂ ਲੱਭੀਆਂ ਅਤੇ ਟੈਸਟਾਂ ਦਾ ਸੁਝਾਅ ਦਿੱਤਾ।

ਸੋਸ਼ਲ ਮੀਡੀਆ 'ਤੇ ਚੱਲ ਰਹੀ ਹਾਈਪ ਦੇ ਪਿੱਛੇ ਲੱਗਣਾ ਬੰਦ ਕਰੋ। ਆਪਣੇ ਟੂਲ ਚੁਣਨ ਲਈ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਰੋਜ਼ਾਨਾ ਵਰਤੋਂ ਲਈ ਕਿਸੇ ਚੀਜ਼ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਸਸਤੇ, ਉੱਚੇ ਸਕੋਰ ਵਾਲੇ ਮਾਡਲਾਂ ਦੀ ਚੋਣ ਕਰੋ। ਜੇਕਰ ਤੁਹਾਨੂੰ ਗਣਿਤ ਜਾਂ ਲੌਜਿਕ ਦੀ ਕਿਸੇ ਮੁਸ਼ਕਲ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਰੀਜ਼ਨਿੰਗ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਸਰੋਤ: https://dev.to/rarenode/i-ran-10-ai-models-through-5-coding-tasks-heres-the-full-data-4ie6

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

Continue reading

ਮੈਂ ਇਸ RAG ਸੈੱਟਅੱਪ ਨਾਲ ਆਪਣੇ AI ਖਰਚੇ 60% ਕਿਵੇਂ ਘਟਾਏ

𝗛𝗼𝘄 𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗪𝗼𝗿𝗱𝗣𝗿𝗲𝘀𝘀 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁 𝗼𝗻 𝗮 𝗕𝘂𝗱𝗴𝗲𝘁

ਮੈਂ GPT-4o ਦੇ ਮੁਕਾਬਲੇ Qwen ਦਾ ਬੈਂਚਮਾਰਕ ਕੀਤਾ

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

ਕੀ ਤੁਹਾਨੂੰ ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮਾਂ ਲਈ ਸਭ ਤੋਂ ਉੱਨਤ AI ਦੀ ਲੋੜ ਹੈ?