𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

📅3 hours ago⏱2 min read

আমি GPT-4o-এর বিপরীতে Qwen-এর কার্যক্ষমতা যাচাই করেছি

একটি সাধারণ কাজের জন্য OpenAI থেকে আমার মাসে ৪,২০০ ডলারের বিল এসেছে। এটি আমাকে অন্যান্য মডেলগুলো পরীক্ষা করতে বাধ্য করেছে।

আমি ছয় সপ্তাহ ধরে Qwen এবং GPT-4o-এর তুলনা করেছি। আমি পাঁচটি ক্যাটাগরিতে ১,২৪৭টি প্রম্পট ব্যবহার করেছি:

শ্রেণিবিন্যাস (Classification)
তথ্য আহরণ (Extraction)
সারসংক্ষেপ তৈরি (Summarization)
কোড জেনারেশন (Code generation)
রিজনিং (Reasoning)

ফলাফলগুলো দেখায় যে উচ্চতর খরচ মানেই সবসময় উচ্চতর গুণমান নয়।

ডেটার ফলাফল:

আমি GPT-4o-এর বিপরীতে পাঁচটি মডেলের তুলনা করেছি। এখানে তাদের ওয়েটেড অ্যাভারেজ (weighted average) স্কোর দেওয়া হলো:

GPT-4o: 0.920
DeepSeek V4 Pro: 0.902
Qwen3-32B: 0.848
DeepSeek V4 Flash: 0.812
GLM-4 Plus: 0.750

ক্লাসিফিকেশন টাস্কের ক্ষেত্রে GPT-4o এবং Qwen3-32B-এর মধ্যে ব্যবধান খুবই সামান্য। তবে, রিজনিং-এর ক্ষেত্রে GPT-4o উল্লেখযোগ্যভাবে এগিয়ে।

খরচের প্রভাব:

আমি প্রতি মাসে ৪৭ মিলিয়ন ইনপুট টোকেন এবং ১২ মিলিয়ন আউটপুট টোকেনের ওপর ভিত্তি করে খরচের একটি প্রাক্কলন করেছি।

GPT-4o: $237.50
DeepSeek V4 Pro: $52.25
Qwen3-32B: $28.50
DeepSeek V4 Flash: $25.89
GLM-4 Plus: $19.00

একই গুণমান বজায় রেখে আমার ৪,২০০ ডলারের বিলটি মাত্র ৩৩৯ ডলার হতে পারত।

আমি কীভাবে আমার পাইপলাইন ঠিক করেছি:

আমি একটি টায়ার্ড রাউটিং (tiered routing) সিস্টেমে চলে এসেছি। আমি কাজের কঠিনতা বিচার করার জন্য একটি ছোট মডেল ব্যবহার করি।

সহজ কাজগুলো DeepSeek V4 Flash-এ পাঠানো হয়।
মাঝারি কাজগুলো Qwen3-32B-এ পাঠানো হয়।
কঠিন কাজগুলো DeepSeek V4 Pro অথবা GPT-4o-তে পাঠানো হয়।

আমি সিম্যান্টিক ক্যাশিং (semantic caching)-ও যুক্ত করেছি। এটি আমাকে একই ধরণের প্রশ্নের জন্য উত্তরগুলো পুনরায় ব্যবহার করতে সাহায্য করে। এর ফলে আমার LLM হিট ৪০% কমে গেছে।

আমার সিদ্ধান্ত নেওয়ার নির্দেশিকা:

যদি আপনার সর্বোচ্চ গুণমান প্রয়োজন হয় এবং বাজেট নমনীয় থাকে: GPT-4o অথবা DeepSeek V4 Pro ব্যবহার করুন।
যদি আপনার গুণমান প্রয়োজন হয় কিন্তু টাকা বাঁচাতে চান: স্মার্ট রাউটিংয়ের সাথে Qwen3-32B ব্যবহার করুন।
যদি খরচই আপনার একমাত্র অগ্রাধিকার হয়: DeepSeek V4 Flash ব্যবহার করুন।
যদি আপনার বিশাল স্কেল এবং সহজ কাজ থাকে: GLM-4 Plus ব্যবহার করুন।

সস্তা মডেলগুলোর ল্যাটেন্সি (latency) প্রায়ই ভালো হয়। আপনার ব্যবহারকারীদের যদি দ্রুত রেসপন্স প্রয়োজন হয়, তবে বেছে নেওয়ার আগে প্রতি সেকেন্ডে কত টোকেন (tokens per second) তৈরি হচ্ছে তা যাচাই করে নিন।

উৎস: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a

𝗜 𝗕𝗲𝗻𝗰𝗵𝗺𝗮𝗿𝗸𝗲𝗱 𝗤𝘄𝗲𝗻 𝗔𝗴𝗮𝗶𝗻𝘀𝘁 𝗚𝗣𝗧 𝟰𝗼

Continue reading

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗔𝗻 𝗜𝗻𝘁𝗲𝗿𝗻𝗮𝗹 𝗔𝗜 𝗖𝗵𝗮𝘁𝗯𝗼𝘁: 𝗟𝗲𝘀𝘀𝗼𝗻𝘀 𝗟𝗲𝗮𝗿𝗻𝗲𝗱

এই RAG সেটআপ ব্যবহার করে আমি কীভাবে আমার AI খরচ ৬০% কমিয়েছি

আমি কীভাবে স্বল্প বাজেটে একটি ওয়ার্ডপ্রেস এআই চ্যাটবট তৈরি করলাম

𝗗𝗲𝗲𝗽𝗦𝗲𝗲𝗸 𝘃𝘀 𝗖𝗹𝗮𝘂𝗱𝗲 𝟯.𝟱 𝗦𝗼𝗻𝗻𝗲𝘁: 𝗠𝘆 𝗛𝗼𝗻𝗲𝘀𝘁 𝗧𝗮𝗸𝗲

আমি ৫টি কোডিং টাস্কের মাধ্যমে ১০টি AI মডেল পরীক্ষা করেছি