𝗛𝗼𝘄 𝗝𝗮𝗽𝗮𝗻𝗲𝘀𝗲 𝗟𝗮𝗯𝘀 𝗕𝘂𝗶𝗹𝗱 𝗕𝗲𝘁𝘁𝗲𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺𝘀
আপনার ভেক্টর ডাটাবেস প্রাসঙ্গিক চাঙ্ক (chunks) প্রদান করে। আপনার এমবেডিং মডেল বেঞ্চমার্কে উচ্চ স্কোর অর্জন করে। কিন্তু যখন একজন ব্যবহারকারী একটি জটিল প্রশ্ন করেন, সিস্টেমটি একটি অকেজো উত্তর দেয়।
এটি একটি রিট্রিভাল আর্কিটেকচার (retrieval architecture) বা তথ্য পুনরুদ্ধারের কাঠামোগত ব্যর্থতা। আপনার LLM টিউন করলে এটি ঠিক হবে না।
একটি জাপানি গবেষণা দল এর সমাধান খুঁজে পেয়েছে। তারা একটি নলেজ গ্রাফ (knowledge graph) RAG সিস্টেম তৈরি করেছে। এই পদ্ধতিটি বৈজ্ঞানিক কাজে নির্ভুলতা ৯০% পর্যন্ত বৃদ্ধি করেছে।
স্ট্যান্ডার্ড RAG-এর সমস্যা হলো সিম্যান্টিক সিমিলারিটি (semantic similarity) বা অর্থগত সাদৃশ্য। প্রোটিন ফোল্ডিং সম্পর্কিত একটি চাঙ্ক CRISPR সম্পর্কিত কোনো প্রশ্নের সাথে সাদৃশ্যপূর্ণ মনে হতে পারে। কিন্তু সাদৃশ্য মানেই প্রাসঙ্গিকতা নয়।
জাপানি দলটি শুধুমাত্র টেক্সট চাঙ্ক ব্যবহার না করে এনটিটি রিলেশনশিপ (entity relationships) বা সত্তার সম্পর্ক ব্যবহার করে। তারা যা যা বের করে আনে:
- প্রোটিন বা গবেষকদের মতো এনটিটি (Entities)
- ইনহিবিটস (inhibits) বা সাইটস (cites)-এর মতো সম্পর্ক (Relationships)
- কনফিডেন্স স্কোরের মতো অ্যাট্রিবিউট (Attributes)
তারা একটি দ্বি-স্তরীয় প্রক্রিয়া ব্যবহার করে। প্রথমত, তারা প্রাসঙ্গিক সাবগ্রাফ (subgraphs) শনাক্ত করে। দ্বিতীয়ত, তারা সেই এনটিটিগুলোর সাথে যুক্ত টেক্সট পুনরুদ্ধার করে। এটি সিম্যান্টিক ড্রিফট (semantic drift) রোধ করে। আপনি কেবল সাদৃশ্যপূর্ণ শব্দ নয়, বরং প্রেক্ষাপট (context) পুনরুদ্ধার করেন।
GraphRAG তৈরি করা স্ট্যান্ডার্ড RAG-এর তুলনায় অনেক বেশি কঠিন। আপনার প্রয়োজন:
- এনটিটি এক্সট্রাকশন পাইপলাইন (Entity extraction pipelines)
- রিলেশনশিপ ক্লাসিফিকেশন (Relationship classification)
- গ্রাফ স্টোরেজ ইনফ্রাস্ট্রাকচার (Graph storage infrastructure)
- হাইব্রিড কুয়েরি ইঞ্জিন (Hybrid query engines)
সবচেয়ে বড় ঝুঁকি হলো রক্ষণাবেক্ষণ (maintenance)। গ্রাফ আপডেট না করলে তা অকেজো হয়ে পড়ে। আমি ২০২৩ সালে কঠিন অভিজ্ঞতার মাধ্যমে এটি শিখেছি। আমি উচ্চ নির্ভুলতার একটি লিগ্যাল RAG সিস্টেম তৈরি করেছিলাম। কিন্তু আমি একটি আপডেট মেকানিজম তৈরি করতে ব্যর্থ হয়েছিলাম। ছয় মাস পরে, ডেটাগুলো পুরনো (stale) হয়ে গিয়েছিল। নির্ভুলতা ৯৪% থেকে কমে ৭১%-এ নেমে আসে।
কীভাবে এটি সঠিকভাবে তৈরি করবেন:
- একটি এনটিটি ট্যাক্সোনমি (entity taxonomy) দিয়ে শুরু করুন। ২০ থেকে ৩০টি গুরুত্বপূর্ণ ধরন বেছে নিন।
- প্রথম দিন থেকেই হাইব্রিড রিট্রিভাল ব্যবহার করুন। সম্পর্কের জন্য গ্রাফ এবং বিষয়ের জন্য ভেক্টর ব্যবহার করুন।
- প্রথমে আপনার রক্ষণাবেক্ষণ পাইপলাইন তৈরি করুন। নতুন ডকুমেন্ট কীভাবে গ্রাফ আপডেট করবে তার পরিকল্পনা করুন।
- রিজনিং চেইন (reasoning chains) পরিমাপ করুন। সিস্টেমটি উত্তর দিতে কতগুলো ধাপ অনুসরণ করছে তা ট্র্যাক করুন।
আপনি যদি বিজ্ঞান, আইন বা চিকিৎসা বিজ্ঞানে কাজ করেন, তবে এই রক্ষণাবেক্ষণ খরচ সার্থক। সাধারণ FAQ-এর জন্য স্ট্যান্ডার্ড RAG-ই যথেষ্ট।
নিজেকে এই প্রশ্নটি করুন: আপনার কুয়েরিগুলোর কত শতাংশ সম্পর্কের বিষয়ে জানতে চায়? যদি আপনার ৪০%-এর বেশি ব্যবহারকারী বিষয়গুলোর মধ্যে সম্পর্ক জানতে চান, তবে আপনার একটি গ্রাফ প্রয়োজন।
ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi