আমি GPT-4o-এর বিপরীতে Qwen-এর কার্যক্ষমতা যাচাই করেছি
একটি সাধারণ কাজের জন্য OpenAI থেকে আমার মাসে ৪,২০০ ডলারের বিল এসেছে। এটি আমাকে অন্যান্য মডেলগুলো পরীক্ষা করতে বাধ্য করেছে।
আমি ছয় সপ্তাহ ধরে Qwen এবং GPT-4o-এর তুলনা করেছি। আমি পাঁচটি ক্যাটাগরিতে ১,২৪৭টি প্রম্পট ব্যবহার করেছি:
- শ্রেণিবিন্যাস (Classification)
- তথ্য আহরণ (Extraction)
- সারসংক্ষেপ তৈরি (Summarization)
- কোড জেনারেশন (Code generation)
- রিজনিং (Reasoning)
ফলাফলগুলো দেখায় যে উচ্চতর খরচ মানেই সবসময় উচ্চতর গুণমান নয়।
ডেটার ফলাফল:
আমি GPT-4o-এর বিপরীতে পাঁচটি মডেলের তুলনা করেছি। এখানে তাদের ওয়েটেড অ্যাভারেজ (weighted average) স্কোর দেওয়া হলো:
- GPT-4o: 0.920
- DeepSeek V4 Pro: 0.902
- Qwen3-32B: 0.848
- DeepSeek V4 Flash: 0.812
- GLM-4 Plus: 0.750
ক্লাসিফিকেশন টাস্কের ক্ষেত্রে GPT-4o এবং Qwen3-32B-এর মধ্যে ব্যবধান খুবই সামান্য। তবে, রিজনিং-এর ক্ষেত্রে GPT-4o উল্লেখযোগ্যভাবে এগিয়ে।
খরচের প্রভাব:
আমি প্রতি মাসে ৪৭ মিলিয়ন ইনপুট টোকেন এবং ১২ মিলিয়ন আউটপুট টোকেনের ওপর ভিত্তি করে খরচের একটি প্রাক্কলন করেছি।
- GPT-4o: $237.50
- DeepSeek V4 Pro: $52.25
- Qwen3-32B: $28.50
- DeepSeek V4 Flash: $25.89
- GLM-4 Plus: $19.00
একই গুণমান বজায় রেখে আমার ৪,২০০ ডলারের বিলটি মাত্র ৩৩৯ ডলার হতে পারত।
আমি কীভাবে আমার পাইপলাইন ঠিক করেছি:
আমি একটি টায়ার্ড রাউটিং (tiered routing) সিস্টেমে চলে এসেছি। আমি কাজের কঠিনতা বিচার করার জন্য একটি ছোট মডেল ব্যবহার করি।
- সহজ কাজগুলো DeepSeek V4 Flash-এ পাঠানো হয়।
- মাঝারি কাজগুলো Qwen3-32B-এ পাঠানো হয়।
- কঠিন কাজগুলো DeepSeek V4 Pro অথবা GPT-4o-তে পাঠানো হয়।
আমি সিম্যান্টিক ক্যাশিং (semantic caching)-ও যুক্ত করেছি। এটি আমাকে একই ধরণের প্রশ্নের জন্য উত্তরগুলো পুনরায় ব্যবহার করতে সাহায্য করে। এর ফলে আমার LLM হিট ৪০% কমে গেছে।
আমার সিদ্ধান্ত নেওয়ার নির্দেশিকা:
- যদি আপনার সর্বোচ্চ গুণমান প্রয়োজন হয় এবং বাজেট নমনীয় থাকে: GPT-4o অথবা DeepSeek V4 Pro ব্যবহার করুন।
- যদি আপনার গুণমান প্রয়োজন হয় কিন্তু টাকা বাঁচাতে চান: স্মার্ট রাউটিংয়ের সাথে Qwen3-32B ব্যবহার করুন।
- যদি খরচই আপনার একমাত্র অগ্রাধিকার হয়: DeepSeek V4 Flash ব্যবহার করুন।
- যদি আপনার বিশাল স্কেল এবং সহজ কাজ থাকে: GLM-4 Plus ব্যবহার করুন।
সস্তা মডেলগুলোর ল্যাটেন্সি (latency) প্রায়ই ভালো হয়। আপনার ব্যবহারকারীদের যদি দ্রুত রেসপন্স প্রয়োজন হয়, তবে বেছে নেওয়ার আগে প্রতি সেকেন্ডে কত টোকেন (tokens per second) তৈরি হচ্ছে তা যাচাই করে নিন।
উৎস: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a