মডেল শোডাউন: লোকাল বনাম ক্লাউড কোডিং

📅3 hours ago⏱2 min read

মডেল শোডাউন: লোকাল বনাম ক্লাউড কোডিং

পাঁচটি লোকাল মডেল। একটি ক্লাউড মডেল। একটি বাস্তব কোডিং টাস্ক।

ফলাফল স্পষ্ট। কনজিউমার হার্ডওয়্যারে এজেন্টিক কোডিং টাস্কের জন্য লোকাল মডেলগুলো এখনও প্রস্তুত নয়।

আমি Claude Sonnet 4-এর বিপরীতে পাঁচটি লোকাল মডেল পরীক্ষা করেছি। লক্ষ্য ছিল একটি ব্লগ অ্যাডমিন প্যানেলের জন্য একটি ট্যাগ ম্যানেজার তৈরি করা। মডেলগুলোকে কোড লিখতে হবে, বিল্ড পাস করতে হবে, স্ক্রিনশট নিতে হবে এবং কমিট পুশ করতে হবে।

ফলাফল:

• Sonnet 4 (Cloud): সম্পন্ন। ৪টি কমিট। ১০ মিনিট। মানুষের কোনো সাহায্য ছাড়াই। • Qwen3-Coder 30B (Local): আংশিক। ১টি কমিট। কাজ করেছে কিন্তু অগোছালো। • Qwen 3.6 35B (Local): ব্যর্থ। বিল্ড পাস করেছে কিন্তু কখনও কমিট করেনি। • Gemma 4 12B (Local): ব্যর্থ। একটি লুপে আটকে গেছে। • Hermes 4 14B (Local): ব্যর্থ। একই ভুল ১৩ বার পুনরাবৃত্তি করেছে। • Devstral 24B (Local): সম্পূর্ণ ব্যর্থ। টুলস ব্যবহার করতে পারেনি।

দক্ষতার ব্যবধান

পার্থক্যটি বিশাল। Sonnet 4 মাত্র ১৯ হাজার (19K) টোকেন ব্যবহার করে কাজটি শেষ করেছে। লোকাল মডেলগুলো ১০ লক্ষ থেকে ৪০ লক্ষ টোকেন খরচ করেছে। এটি দক্ষতার ক্ষেত্রে ১০০ গুণ থেকে ২০০ গুণ ব্যবধান।

লোকাল মডেলগুলো শুধু ধীরগতিরই নয়, তারা যুক্তিনির্ভর কাজেও (reasoning) হিমশিম খাচ্ছে। আমি চারটি প্রধান সমস্যা দেখেছি:

ডিজেনারেট লুপ (Degenerate loops): মডেলগুলো একই ভুল কোড বা টেক্সট ডজন ডজন বার পুনরাবৃত্তি করে।
ডিরেক্টরি অ্যামনেসিয়া (Directory amnesia): মডেলগুলো ফাইল সিস্টেমের কোথায় আছে তা ভুলে যায়।
দুর্বল অগ্রাধিকার (Poor prioritization): মডেলগুলো মূল লক্ষ্য শেষ করার পরিবর্তে ছোটখাটো কাজে মনোযোগ দেয়।
সেলফ-ডায়াগনোসিস বা স্ব-নির্ণয়ের অভাব: মডেলগুলো ডকুমেন্টেশন পড়ার পরিবর্তে একই ব্যর্থ সমাধান বারবার চেষ্টা করে।

মূল শিক্ষা

লোকাল মডেলগুলো দেখতে ভালো কোড লিখতে পারে। কিন্তু শেষ পর্যায়ে (last mile) তারা ব্যর্থ হয়। একজন এজেন্ট হওয়ার জন্য কোড জেনারেশনের চেয়েও বেশি কিছু প্রয়োজন। এর জন্য স্টেট ম্যানেজমেন্ট, ত্রুটি সংশোধন এবং কখন কাজ সম্পন্ন (ship) করতে হবে তা জানা প্রয়োজন।

Qwen3-Coder 30B হলো একমাত্র লোকাল মডেল যা নজর দেওয়ার মতো। এটি প্রকৃতপক্ষে একটি ব্রাঞ্চে কাজ করার মতো কোড পুশ করেছে। একটি সিঙ্গেল কনজিউমার GPU-তে চলা মডেলের জন্য এটি একটি অগ্রগতি।

উৎস: https://dev.to/carryologist/model-showdown-round-7-five-local-models-vs-one-cloud-model-on-a-real-coding-task-1ehj

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

মডেল শোডাউন: লোকাল বনাম ক্লাউড কোডিং

Continue reading

লোকাল LLM-গুলো ২০২৬ সালে থাকলেও, ডেভেলপারদের অভিজ্ঞতা এখনও ২০১০ সালে আটকে আছে

𝗟𝗼𝗰𝗮𝗹 𝗟𝗟𝗠𝘀 𝗶𝗻 𝟮𝟬𝟮𝟲 𝗯𝘂𝘁 𝗗𝗲𝘃 𝗘𝘅𝗽𝗲𝗿𝗶𝗲𝗻𝗰𝗲 𝗶𝗻 𝟮𝟬𝟭𝟬

একটি জিপিইউতে দুটি মডেল চালানো: লোকাল LLM-এর পেছনের গণিত

আমি ৫টি কোডিং টাস্কের মাধ্যমে ১০টি AI মডেল পরীক্ষা করেছি

ভাইব কোডিং ১০১: ডেভেলপারদের জন্য একটি নির্দেশিকা