আমি GPT-4o-এর বিপরীতে Qwen-এর কার্যক্ষমতা যাচাই করেছি

একটি সাধারণ কাজের জন্য OpenAI থেকে আমার মাসে ৪,২০০ ডলারের বিল এসেছে। এটি আমাকে অন্যান্য মডেলগুলো পরীক্ষা করতে বাধ্য করেছে।

আমি ছয় সপ্তাহ ধরে Qwen এবং GPT-4o-এর তুলনা করেছি। আমি পাঁচটি ক্যাটাগরিতে ১,২৪৭টি প্রম্পট ব্যবহার করেছি:

ফলাফলগুলো দেখায় যে উচ্চতর খরচ মানেই সবসময় উচ্চতর গুণমান নয়।

ডেটার ফলাফল:

আমি GPT-4o-এর বিপরীতে পাঁচটি মডেলের তুলনা করেছি। এখানে তাদের ওয়েটেড অ্যাভারেজ (weighted average) স্কোর দেওয়া হলো:

ক্লাসিফিকেশন টাস্কের ক্ষেত্রে GPT-4o এবং Qwen3-32B-এর মধ্যে ব্যবধান খুবই সামান্য। তবে, রিজনিং-এর ক্ষেত্রে GPT-4o উল্লেখযোগ্যভাবে এগিয়ে।

খরচের প্রভাব:

আমি প্রতি মাসে ৪৭ মিলিয়ন ইনপুট টোকেন এবং ১২ মিলিয়ন আউটপুট টোকেনের ওপর ভিত্তি করে খরচের একটি প্রাক্কলন করেছি।

একই গুণমান বজায় রেখে আমার ৪,২০০ ডলারের বিলটি মাত্র ৩৩৯ ডলার হতে পারত।

আমি কীভাবে আমার পাইপলাইন ঠিক করেছি:

আমি একটি টায়ার্ড রাউটিং (tiered routing) সিস্টেমে চলে এসেছি। আমি কাজের কঠিনতা বিচার করার জন্য একটি ছোট মডেল ব্যবহার করি।

আমি সিম্যান্টিক ক্যাশিং (semantic caching)-ও যুক্ত করেছি। এটি আমাকে একই ধরণের প্রশ্নের জন্য উত্তরগুলো পুনরায় ব্যবহার করতে সাহায্য করে। এর ফলে আমার LLM হিট ৪০% কমে গেছে।

আমার সিদ্ধান্ত নেওয়ার নির্দেশিকা:

সস্তা মডেলগুলোর ল্যাটেন্সি (latency) প্রায়ই ভালো হয়। আপনার ব্যবহারকারীদের যদি দ্রুত রেসপন্স প্রয়োজন হয়, তবে বেছে নেওয়ার আগে প্রতি সেকেন্ডে কত টোকেন (tokens per second) তৈরি হচ্ছে তা যাচাই করে নিন।

উৎস: https://dev.to/rarenode/i-benchmarked-qwen-against-gpt-4o-a-data-scientists-raw-numbers-3d6a