জাপানি ল্যাবগুলো কীভাবে আরও উন্নত RAG সিস্টেম তৈরি করে

Translated for your language. Read the original.

AI-assisted draft.

𝗛𝗼𝘄 𝗝𝗮𝗽𝗮𝗻𝗲𝘀𝗲 𝗟𝗮𝗯𝘀 𝗕𝘂𝗶𝗹𝗱 𝗕𝗲𝘁𝘁𝗲𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

আপনার ভেক্টর ডাটাবেস প্রাসঙ্গিক চাঙ্ক (chunks) প্রদান করে। আপনার এমবেডিং মডেল বেঞ্চমার্কে উচ্চ স্কোর অর্জন করে। কিন্তু যখন একজন ব্যবহারকারী একটি জটিল প্রশ্ন করেন, সিস্টেমটি একটি অকেজো উত্তর দেয়।

এটি একটি রিট্রিভাল আর্কিটেকচার (retrieval architecture) বা তথ্য পুনরুদ্ধারের কাঠামোগত ব্যর্থতা। আপনার LLM টিউন করলে এটি ঠিক হবে না।

একটি জাপানি গবেষণা দল এর সমাধান খুঁজে পেয়েছে। তারা একটি নলেজ গ্রাফ (knowledge graph) RAG সিস্টেম তৈরি করেছে। এই পদ্ধতিটি বৈজ্ঞানিক কাজে নির্ভুলতা ৯০% পর্যন্ত বৃদ্ধি করেছে।

স্ট্যান্ডার্ড RAG-এর সমস্যা হলো সিম্যান্টিক সিমিলারিটি (semantic similarity) বা অর্থগত সাদৃশ্য। প্রোটিন ফোল্ডিং সম্পর্কিত একটি চাঙ্ক CRISPR সম্পর্কিত কোনো প্রশ্নের সাথে সাদৃশ্যপূর্ণ মনে হতে পারে। কিন্তু সাদৃশ্য মানেই প্রাসঙ্গিকতা নয়।

জাপানি দলটি শুধুমাত্র টেক্সট চাঙ্ক ব্যবহার না করে এনটিটি রিলেশনশিপ (entity relationships) বা সত্তার সম্পর্ক ব্যবহার করে। তারা যা যা বের করে আনে:

প্রোটিন বা গবেষকদের মতো এনটিটি (Entities)
ইনহিবিটস (inhibits) বা সাইটস (cites)-এর মতো সম্পর্ক (Relationships)
কনফিডেন্স স্কোরের মতো অ্যাট্রিবিউট (Attributes)

তারা একটি দ্বি-স্তরীয় প্রক্রিয়া ব্যবহার করে। প্রথমত, তারা প্রাসঙ্গিক সাবগ্রাফ (subgraphs) শনাক্ত করে। দ্বিতীয়ত, তারা সেই এনটিটিগুলোর সাথে যুক্ত টেক্সট পুনরুদ্ধার করে। এটি সিম্যান্টিক ড্রিফট (semantic drift) রোধ করে। আপনি কেবল সাদৃশ্যপূর্ণ শব্দ নয়, বরং প্রেক্ষাপট (context) পুনরুদ্ধার করেন।

GraphRAG তৈরি করা স্ট্যান্ডার্ড RAG-এর তুলনায় অনেক বেশি কঠিন। আপনার প্রয়োজন:

এনটিটি এক্সট্রাকশন পাইপলাইন (Entity extraction pipelines)
রিলেশনশিপ ক্লাসিফিকেশন (Relationship classification)
গ্রাফ স্টোরেজ ইনফ্রাস্ট্রাকচার (Graph storage infrastructure)
হাইব্রিড কুয়েরি ইঞ্জিন (Hybrid query engines)

সবচেয়ে বড় ঝুঁকি হলো রক্ষণাবেক্ষণ (maintenance)। গ্রাফ আপডেট না করলে তা অকেজো হয়ে পড়ে। আমি ২০২৩ সালে কঠিন অভিজ্ঞতার মাধ্যমে এটি শিখেছি। আমি উচ্চ নির্ভুলতার একটি লিগ্যাল RAG সিস্টেম তৈরি করেছিলাম। কিন্তু আমি একটি আপডেট মেকানিজম তৈরি করতে ব্যর্থ হয়েছিলাম। ছয় মাস পরে, ডেটাগুলো পুরনো (stale) হয়ে গিয়েছিল। নির্ভুলতা ৯৪% থেকে কমে ৭১%-এ নেমে আসে।

কীভাবে এটি সঠিকভাবে তৈরি করবেন:

একটি এনটিটি ট্যাক্সোনমি (entity taxonomy) দিয়ে শুরু করুন। ২০ থেকে ৩০টি গুরুত্বপূর্ণ ধরন বেছে নিন।
প্রথম দিন থেকেই হাইব্রিড রিট্রিভাল ব্যবহার করুন। সম্পর্কের জন্য গ্রাফ এবং বিষয়ের জন্য ভেক্টর ব্যবহার করুন।
প্রথমে আপনার রক্ষণাবেক্ষণ পাইপলাইন তৈরি করুন। নতুন ডকুমেন্ট কীভাবে গ্রাফ আপডেট করবে তার পরিকল্পনা করুন।
রিজনিং চেইন (reasoning chains) পরিমাপ করুন। সিস্টেমটি উত্তর দিতে কতগুলো ধাপ অনুসরণ করছে তা ট্র্যাক করুন।

আপনি যদি বিজ্ঞান, আইন বা চিকিৎসা বিজ্ঞানে কাজ করেন, তবে এই রক্ষণাবেক্ষণ খরচ সার্থক। সাধারণ FAQ-এর জন্য স্ট্যান্ডার্ড RAG-ই যথেষ্ট।

নিজেকে এই প্রশ্নটি করুন: আপনার কুয়েরিগুলোর কত শতাংশ সম্পর্কের বিষয়ে জানতে চায়? যদি আপনার ৪০%-এর বেশি ব্যবহারকারী বিষয়গুলোর মধ্যে সম্পর্ক জানতে চান, তবে আপনার একটি গ্রাফ প্রয়োজন।

উৎস: https://dev.to/xu_xu_b2179aa8fc958d531d1/how-japans-research-labs-are-building-rag-systems-that-actually-work-and-what-western-teams-keep-21b2

ঐচ্ছিক লার্নিং কমিউনিটি: https://t.me/GyaanSetuAi

জাপানি ল্যাবগুলো কীভাবে আরও উন্নত RAG সিস্টেম তৈরি করে

Continue reading

RAG ব্যবহার করে আরও উন্নত AI তৈরি করা

হাইব্রিড রিট্রিভাল এবং এজেন্ট অবজারভেবিলিটি

𝗞𝗻𝗼𝘄𝗹𝗲𝗱𝗴𝗲 𝗚𝗿𝗮𝗽𝗵𝘀: 𝗧𝗵𝗲 𝗠𝗶𝘀𝘀𝗶𝗻𝗴 𝗣𝗶𝗲𝗰𝗲 𝗶𝗻 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺𝘀

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

Phase 1: Document Ingestion