𝗠𝗼𝗱𝗲𝗹 𝗦𝗵𝗼𝘄𝗱𝗼𝘄𝗻: 𝗟𝗼𝗰𝗮𝗹 𝘃𝘀. 𝗖𝗹𝗼𝘂𝗱 𝗖𝗼𝗱𝗶𝗻𝗴
ਪੰਜ ਲੋਕਲ ਮਾਡਲ। ਇੱਕ ਕਲਾਉਡ ਮਾਡਲ। ਇੱਕ ਅਸਲੀ ਕੋਡਿੰਗ ਟਾਸਕ।
ਨਤੀਜੇ ਸਪੱਸ਼ਟ ਹਨ। ਲੋਕਲ ਮਾਡਲ ਖਪਤਕਾਰ ਹਾਰਡਵੇਅਰ (consumer hardware) 'ਤੇ ਏਜੈਂਟਿਕ ਕੋਡਿੰਗ ਟਾਸਕਾਂ ਲਈ ਤਿਆਰ ਨਹੀਂ ਹਨ।
ਮੈਂ Claude Sonnet 4 ਦੇ ਵਿਰੁੱਧ ਪੰਜ ਲੋਕਲ ਮਾਡਲਾਂ ਦਾ ਟੈਸਟ ਕੀਤਾ। ਉਦੇਸ਼ ਇੱਕ ਬਲੌਗ ਐਡਮਿਨ ਪੈਨਲ ਲਈ ਟੈਗ ਮੈਨੇਜਰ ਬਣਾਉਣਾ ਸੀ। ਮਾਡਲਾਂ ਨੂੰ ਕੋਡ ਲਿਖਣਾ, ਬਿਲਡ ਪਾਸ ਕਰਨਾ, ਸਕ੍ਰੀਨਸ਼ੌਟ ਲੈਣਾ ਅਤੇ ਕਮਿਟ ਪੁਸ਼ (push commits) ਕਰਨਾ ਸੀ।
ਨਤੀਜੇ:
• Sonnet 4 (Cloud): ਮੁਕੰਮਲ। 4 ਕਮਿਟਸ। 10 ਮਿੰਟ। ਕੋਈ ਮਨੁੱਖੀ ਮਦਦ ਨਹੀਂ। • Qwen3-Coder 30B (Local): ਅਧੂਰਾ। 1 ਕਮਿਟ। ਕੰਮ ਕੀਤਾ ਪਰ ਅਸੰਗਠਿਤ ਸੀ। • Qwen 3.6 35B (Local): ਅਸਫਲ। ਬਿਲਡ ਪਾਸ ਕੀਤਾ ਪਰ ਕਦੇ ਕਮਿਟ ਨਹੀਂ ਕੀਤਾ। • Gemma 4 12B (Local): ਅਸਫਲ। ਲੂਪ ਵਿੱਚ ਫਸ ਗਿਆ। • Hermes 4 14B (Local): ਅਸਫਲ। ਇੱਕੋ ਗਲਤੀ 13 ਵਾਰ ਦੁਹਰਾਈ। • Devstral 24B (Local): ਪੂਰੀ ਤਰ੍ਹਾਂ ਅਸਫਲ। ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਨਹੀਂ ਕਰ ਸਕਿਆ।
ਕੁਸ਼ਲਤਾ ਦਾ ਪਾੜਾ
ਫਰਕ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। Sonnet 4 ਨੇ 19K ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟਾਸਕ ਪੂਰਾ ਕੀਤਾ। ਲੋਕਲ ਮਾਡਲਾਂ ਨੇ 1 ਮਿਲੀਅਨ ਤੋਂ 4 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇਹ ਕੁਸ਼ਲਤਾ ਵਿੱਚ 100x ਤੋਂ 200x ਦਾ ਪਾੜਾ ਹੈ।
ਲੋਕਲ ਮਾਡਲ ਸਿਰਫ਼ ਹੌਲੀ ਹੀ ਨਹੀਂ ਹਨ। ਉਹ ਤਰਕ (reasoning) ਕਰਨ ਵਿੱਚ ਵੀ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ। ਮੈਂ ਚਾਰ ਮੁੱਖ ਸਮੱਸਿਆਵਾਂ ਦੇਖੀਆਂ:
- ਡੀਜਨਰੇਟ ਲੂਪਸ (Degenerate loops): ਮਾਡਲ ਇੱਕੋ ਗਲਤ ਕੋਡ ਜਾਂ ਟੈਕਸਟ ਨੂੰ ਦਰਜਨਾਂ ਵਾਰ ਦੁਹਰਾਉਂਦੇ ਹਨ।
- ਡਾਇਰੈਕਟਰੀ ਅਮਨੀਸ਼ੀਆ (Directory amnesia): ਮਾਡਲ ਭੁੱਲ ਜਾਂਦੇ ਹਨ ਕਿ ਉਹ ਫਾਈਲ ਸਿਸਟਮ ਵਿੱਚ ਕਿੱਥੇ ਹਨ।
- ਮਾੜੀ ਤਰਜੀਹ (Poor prioritization): ਮਾਡਲ ਮੁੱਖ ਟੀਚੇ ਨੂੰ ਪੂਰਾ ਕਰਨ ਦੀ ਬਜਾਏ ਮਾਮੂਲੀ ਕੰਮਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹਨ।
- ਕੋਈ ਸਵੈ-ਡਾਇਗਨੋਸਿਸ ਨਹੀਂ (No self-diagnosis): ਮਾਡਲ ਡਾਕੂਮੈਂਟੇਸ਼ਨ ਪੜ੍ਹਨ ਦੀ ਬਜਾਏ ਉਹੀ ਅਸਫਲ ਫਿਕਸ (fix) ਅਜ਼ਮਾਉਂਦੇ ਹਨ।
ਸਿੱਖਿਆ
ਲੋਕਲ ਮਾਡਲ ਅਜਿਹਾ ਕੋਡ ਲਿਖ ਸਕਦੇ ਹਨ ਜੋ ਦੇਖਣ ਵਿੱਚ ਚੰਗਾ ਲੱਗੇ। ਉਹ ਆਖਰੀ ਪੜਾਅ (last mile) 'ਤੇ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਇੱਕ ਏਜੰਟ ਹੋਣ ਲਈ ਕੋਡ ਜਨਰੇਸ਼ਨ ਤੋਂ ਵੱਧ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਲਈ ਸਟੇਟ (state) ਨੂੰ ਪ੍ਰਬੰਧਿਤ ਕਰਨਾ, ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨਾ ਅਤੇ ਇਹ ਜਾਣਨਾ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਕਦੋਂ ਸ਼ਿਪ (ship) ਕਰਨਾ ਹੈ।
Qwen3-Coder 30B ਇਕਲੌਤਾ ਅਜਿਹਾ ਲੋਕਲ ਮਾਡਲ ਹੈ ਜਿਸ 'ਤੇ ਨਜ਼ਰ ਰੱਖਣਯੋਗ ਹੈ। ਇਸਨੇ ਅਸਲ ਵਿੱਚ ਇੱਕ ਬ੍ਰਾਂਚ 'ਤੇ ਕੰਮ ਕਰਨ ਵਾਲਾ ਕੋਡ ਪੁਸ਼ ਕੀਤਾ। ਇੱਕ ਸਿੰਗਲ ਕੰਜ਼ਿਊਮਰ GPU 'ਤੇ ਚੱਲਣ ਵਾਲੇ ਮਾਡਲ ਲਈ, ਇਹ ਇੱਕ ਪ੍ਰਗਤੀ ਹੈ।
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi