ডোমেইন-নির্দিষ্ট ভেক্টর রিট্রিভাল: মডেল থেকে ডুয়াল ভ্যালিডেশন
সাধারণ উদ্দেশ্যে ব্যবহৃত এমবেডিং মডেলগুলো প্রায়শই বিশেষায়িত টেক্সটের ক্ষেত্রে ব্যর্থ হয়।
আমার সাম্প্রতিক ESG প্রজেক্টে, OpenAI-এর ada-002 মডেল ব্যবহার করার ফলে দুটি প্রধান সমস্যা দেখা দিয়েছিল:
- ১৮% প্রাসঙ্গিক কন্টেন্ট কখনোই খুঁজে পাওয়া যায়নি।
- ১২% ফলাফল ভুল ছিল। উদাহরণস্বরূপ, "Scope 1 emissions" সার্চ করলে "Scope 3 emissions" চলে আসছিল।
সমস্যাটি সিমিলারিটি থ্রেশহোল্ডের ছিল না। সমস্যাটি ছিল সিম্যান্টিক ড্রিফট। সাধারণ মডেলগুলো ESG, আইনি বা মেডিকেল টেক্সটের মতো বিশেষায়িত ডোমেইনের সূক্ষ্ম পার্থক্যগুলো বুঝতে পারে না।
এটি সমাধানের জন্য এখানে একটি তিন-স্তরীয় সমাধান দেওয়া হলো।
১. মডেল সিলেকশন আমরা চারটি মডেল পরীক্ষা করেছি। যদিও BGE-M3 সেলফ-হোস্ট করা সস্তা মনে হয়, কিন্তু GPU সার্ভার খরচ এবং ডেভেলপমেন্ট সময়ের কারণে এটি আসলে ৬ গুণ বেশি ব্যয়বহুল ছিল।
আমরা text-embedding-3