𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴

📅3 hours ago⏱2 min read

ਪੰਜ ਲੋਕਲ ਮਾਡਲ। ਇੱਕ ਕਲਾਉਡ ਮਾਡਲ। ਇੱਕ ਅਸਲੀ ਕੋਡਿੰਗ ਟਾਸਕ।

ਨਤੀਜੇ ਸਪੱਸ਼ਟ ਹਨ। ਲੋਕਲ ਮਾਡਲ ਖਪਤਕਾਰ ਹਾਰਡਵੇਅਰ (consumer hardware) 'ਤੇ ਏਜੈਂਟਿਕ ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਲਈ ਤਿਆਰ ਨਹੀਂ ਹਨ।

ਮੈਂ Claude Sonnet 4 ਦੇ ਵਿਰੁੱਧ ਪੰਜ ਲੋਕਲ ਮਾਡਲਾਂ ਦਾ ਟੈਸਟ ਕੀਤਾ। ਉਦੇਸ਼ ਇੱਕ ਬਲੌਗ ਐਡਮਿਨ ਪੈਨਲ ਲਈ ਟੈਗ ਮੈਨੇਜਰ ਬਣਾਉਣਾ ਸੀ। ਮਾਡਲਾਂ ਨੂੰ ਕੋਡ ਲਿਖਣਾ, ਬਿਲਡ ਪਾਸ ਕਰਨਾ, ਸਕ੍ਰੀਨਸ਼ੌਟ ਲੈਣਾ ਅਤੇ ਕਮਿਟ ਪੁਸ਼ (push commits) ਕਰਨਾ ਸੀ।

ਨਤੀਜੇ:

• Sonnet 4 (Cloud): ਮੁਕੰਮਲ। 4 ਕਮਿਟਸ। 10 ਮਿੰਟ। ਕੋਈ ਮਨੁੱਖੀ ਮਦਦ ਨਹੀਂ। • Qwen3-Coder 30B (Local): ਅਧੂਰਾ। 1 ਕਮਿਟ। ਕੰਮ ਕੀਤਾ ਪਰ ਅਸੰਗਠਿਤ ਸੀ। • Qwen 3.6 35B (Local): ਅਸਫਲ। ਬਿਲਡ ਪਾਸ ਕੀਤਾ ਪਰ ਕਦੇ ਕਮਿਟ ਨਹੀਂ ਕੀਤਾ। • Gemma 4 12B (Local): ਅਸਫਲ। ਲੂਪ ਵਿੱਚ ਫਸ ਗਿਆ। • Hermes 4 14B (Local): ਅਸਫਲ। ਇੱਕੋ ਗਲਤੀ 13 ਵਾਰ ਦੁਹਰਾਈ। • Devstral 24B (Local): ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ। ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਸਕਿਆ।

ਕੁਸ਼ਲਤਾ ਦਾ ਪਾੜਾ

ਫਰਕ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। Sonnet 4 ਨੇ 19K ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟਾਸਕ ਪੂਰਾ ਕੀਤਾ। ਲੋਕਲ ਮਾਡਲਾਂ ਨੇ 1 ਮਿਲੀਅਨ ਤੋਂ 4 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹ ਕੁਸ਼ਲਤਾ ਵਿੱਚ 100x ਤੋਂ 200x ਦਾ ਪਾੜਾ ਹੈ।

ਲੋਕਲ ਮਾਡਲ ਸਿਰਫ਼ ਹੌਲੀ ਹੀ ਨਹੀਂ ਹਨ। ਉਹ ਤਰਕ (reasoning) ਕਰਨ ਵਿੱਚ ਵੀ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ। ਮੈਂ ਚਾਰ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ ਦੇਖੀਆਂ:

ਡੀਜਨਰੇਟ ਲੂਪਸ (Degenerate loops): ਮਾਡਲ ਇੱਕੋ ਗਲਤ ਕੋਡ ਜਾਂ ਟੈਕਸਟ ਨੂੰ ਦਰਜਨਾਂ ਵਾਰ ਦੁਹਰਾਉਂਦੇ ਹਨ।
ਡਾਇਰੈਕਟਰੀ ਅਮਨੀਸ਼ੀਆ (Directory amnesia): ਮਾਡਲ ਭੁੱਲ ਜਾਂਦੇ ਹਨ ਕਿ ਉਹ ਫਾਈਲ ਸਿਸਟਮ ਵਿੱਚ ਕਿੱਥੇ ਹਨ।
ਮਾੜੀ ਤਰਜੀਹ (Poor prioritization): ਮਾਡਲ ਮੁੱਖ ਟੀਚੇ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦੀ ਬਜਾਏ ਮਾਮੂਲੀ ਕੰਮਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ।
ਕੋਈ ਸਵੈ-ਡਾਇਗਨੋਸਿਸ ਨਹੀਂ (No self-diagnosis): ਮਾਡਲ ਡਾਕੂਮੈਂਟੇਸ਼ਨ ਪੜ੍ਹਨ ਦੀ ਬਜਾਏ ਉਹੀ ਅਸਫਲ ਫਿਕਸ (fix) ਅਜ਼ਮਾਉਂਦੇ ਹਨ।

ਸਿੱਖਿਆ

ਲੋਕਲ ਮਾਡਲ ਅਜਿਹਾ ਕੋਡ ਲਿਖ ਸਕਦੇ ਹਨ ਜੋ ਦੇਖਣ ਵਿੱਚ ਚੰਗਾ ਲੱਗੇ। ਉਹ ਆਖਰੀ ਪੜਾਅ (last mile) 'ਤੇ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਇੱਕ ਏਜੰਟ ਹੋਣ ਲਈ ਕੋਡ ਜਨਰੇਸ਼ਨ ਤੋਂ ਵੱਧ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਲਈ ਸਟੇਟ (state) ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨਾ, ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨਾ ਅਤੇ ਇਹ ਜਾਣਨਾ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਕਦੋਂ ਸ਼ਿਪ (ship) ਕਰਨਾ ਹੈ।

Qwen3-Coder 30B ਇਕਲੌਤਾ ਅਜਿਹਾ ਲੋਕਲ ਮਾਡਲ ਹੈ ਜਿਸ 'ਤੇ ਨਜ਼ਰ ਰੱਖਣਯੋਗ ਹੈ। ਇਸਨੇ ਅਸਲ ਵਿੱਚ ਇੱਕ ਬ੍ਰਾਂਚ 'ਤੇ ਕੰਮ ਕਰਨ ਵਾਲਾ ਕੋਡ ਪੁਸ਼ ਕੀਤਾ। ਇੱਕ ਸਿੰਗਲ ਕੰਜ਼ਿਊਮਰ GPU 'ਤੇ ਚੱਲਣ ਵਾਲੇ ਮਾਡਲ ਲਈ, ਇਹ ਇੱਕ ਪ੍ਰਗਤੀ ਹੈ।

ਸਰੋਤ: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴

Continue reading

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗮𝗿𝗲 𝗶𝗻 𝟮𝟬𝟮𝟲, 𝗯𝘂𝘁 𝘁𝗵𝗲 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝘀 𝗦𝘁𝘂𝗰𝗸 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

𝗥𝘂𝗻𝗻𝗶𝗻𝗴 𝗧𝘄𝗼 𝗠𝗼𝗱𝗲𝗹𝘀 𝗼𝗻 𝗢𝗻𝗲 𝗚𝗣𝗨: 𝗧𝗵𝗲 𝗠𝗮𝘁𝗵 𝗕𝗲𝗵𝗶𝗻𝗱 𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀

𝗜 𝗥𝗮𝗻 𝟭𝟬 𝗔𝗜 𝗠𝗼𝗱𝗲𝗹𝘀 𝗧𝗵𝗿𝗼𝘂𝗴𝗵 𝟱 𝗖𝗼𝗱𝗶𝗻𝗴 𝗧𝗮𝘀𝗸𝘀

𝗩𝗶𝗯𝗲 𝗖𝗼𝗱𝗶𝗻𝗴 𝟭𝟬𝟭: 𝗔 𝗚𝘂𝗶𝗱𝗲 𝗳𝗼𝗿 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿𝘀