মডেল শোডাউন: লোকাল বনাম ক্লাউড কোডিং

পাঁচটি লোকাল মডেল। একটি ক্লাউড মডেল। একটি বাস্তব কোডিং টাস্ক।

ফলাফল স্পষ্ট। কনজিউমার হার্ডওয়্যারে এজেন্টিক কোডিং টাস্কের জন্য লোকাল মডেলগুলো এখনও প্রস্তুত নয়।

আমি Claude Sonnet 4-এর বিপরীতে পাঁচটি লোকাল মডেল পরীক্ষা করেছি। লক্ষ্য ছিল একটি ব্লগ অ্যাডমিন প্যানেলের জন্য একটি ট্যাগ ম্যানেজার তৈরি করা। মডেলগুলোকে কোড লিখতে হবে, বিল্ড পাস করতে হবে, স্ক্রিনশট নিতে হবে এবং কমিট পুশ করতে হবে।

ফলাফল:

• Sonnet 4 (Cloud): সম্পন্ন। ৪টি কমিট। ১০ মিনিট। মানুষের কোনো সাহায্য ছাড়াই। • Qwen3-Coder 30B (Local): আংশিক। ১টি কমিট। কাজ করেছে কিন্তু অগোছালো। • Qwen 3.6 35B (Local): ব্যর্থ। বিল্ড পাস করেছে কিন্তু কখনও কমিট করেনি। • Gemma 4 12B (Local): ব্যর্থ। একটি লুপে আটকে গেছে। • Hermes 4 14B (Local): ব্যর্থ। একই ভুল ১৩ বার পুনরাবৃত্তি করেছে। • Devstral 24B (Local): সম্পূর্ণ ব্যর্থ। টুলস ব্যবহার করতে পারেনি।

দক্ষতার ব্যবধান

পার্থক্যটি বিশাল। Sonnet 4 মাত্র ১৯ হাজার (19K) টোকেন ব্যবহার করে কাজটি শেষ করেছে। লোকাল মডেলগুলো ১০ লক্ষ থেকে ৪০ লক্ষ টোকেন খরচ করেছে। এটি দক্ষতার ক্ষেত্রে ১০০ গুণ থেকে ২০০ গুণ ব্যবধান।

লোকাল মডেলগুলো শুধু ধীরগতিরই নয়, তারা যুক্তিনির্ভর কাজেও (reasoning) হিমশিম খাচ্ছে। আমি চারটি প্রধান সমস্যা দেখেছি:

মূল শিক্ষা

লোকাল মডেলগুলো দেখতে ভালো কোড লিখতে পারে। কিন্তু শেষ পর্যায়ে (last mile) তারা ব্যর্থ হয়। একজন এজেন্ট হওয়ার জন্য কোড জেনারেশনের চেয়েও বেশি কিছু প্রয়োজন। এর জন্য স্টেট ম্যানেজমেন্ট, ত্রুটি সংশোধন এবং কখন কাজ সম্পন্ন (ship) করতে হবে তা জানা প্রয়োজন।

Qwen3-Coder 30B হলো একমাত্র লোকাল মডেল যা নজর দেওয়ার মতো। এটি প্রকৃতপক্ষে একটি ব্রাঞ্চে কাজ করার মতো কোড পুশ করেছে। একটি সিঙ্গেল কনজিউমার GPU-তে চলা মডেলের জন্য এটি একটি অগ্রগতি।

উৎস: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi