RAG চাঙ্কিং কৌশলসমূহ: উন্নত রিট্রিভালের জন্য ডকুমেন্ট স্প্লিট করুন

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialগত সপ্তাহ2min read

RAG চাঙ্কিং কৌশলসমূহ: উন্নত রিট্রিভালের জন্য ডকুমেন্ট স্প্লিট করুন

RAG চাঙ্কিং কৌশল: উন্নত রিট্রিভালের জন্য ডকুমেন্ট স্প্লিট করুন

বেশিরভাগ RAG ব্যর্থতা ঘটে আপনার ডকুমেন্টগুলো যেভাবে স্প্লিট করা হয়েছে তার কারণে।

যদি আপনার রিট্রিভাল খারাপ হয়, তবে প্রথমেই আপনার প্রম্পট বা LLM পরিবর্তন করবেন না। আপনার চাঙ্কগুলোর দিকে নজর দিন। যদি সঠিক তথ্য আপনার ডাটাবেসে থাকে কিন্তু সিস্টেম সেটি খুঁজে না পায়, তবে সম্ভবত আপনার চাঙ্কিং কৌশলটিই সমস্যা।

খারাপ চাঙ্কিং তিনটি প্রধান সমস্যার সৃষ্টি করে:

• Boundary truncation: উত্তরের একটি বাক্য দুটি অংশে বিভক্ত হয়ে যায়। কোনো অংশই কুয়েরির সাথে মিলানোর মতো যথেষ্ট তথ্য রাখে না। • Context dilution: একটি বড় চাঙ্কে একটি প্রাসঙ্গিক বাক্য এবং দশটি অপ্রাসঙ্গিক বাক্য থাকে। অতিরিক্ত টেক্সট সিম্যান্টিক সিগন্যালকে দুর্বল করে দেয়। • Missing metadata: চাঙ্কগুলোতে তাদের উৎস বা তারিখ সম্পর্কে তথ্যের অভাব থাকে, যা ফিল্টার করা সার্চ করা অসম্ভব করে তোলে।

আপনার পাইপলাইন ঠিক করতে এই চারটি কৌশল ব্যবহার করুন:

Fixed-size chunking রিপোর্ট বা আর্টিকেলের মতো দীর্ঘ, নিরবচ্ছিন্ন গদ্যের জন্য সবচেয়ে ভালো। • 256 থেকে 512 টোকেন ব্যবহার করুন। • বাক্য বিভক্ত হওয়া রোধ করতে 10% থেকে 15% ওভারল্যাপ সেট করুন।
Semantic chunking FAQ বা সাপোর্ট ডকুমেন্টের মতো উচ্চ-ঘনত্বের টেক্সটের জন্য সবচেয়ে ভালো। • এটি টোকেন সংখ্যার পরিবর্তে টপিক বা বিষয়ের পরিবর্তনের ওপর ভিত্তি করে টেক্সট স্প্লিট করে। • এটি সম্পূর্ণ ধারণাগুলোকে একত্রে রাখে।
Structural chunking টেকনিক্যাল ডকুমেন্ট, Markdown বা HTML-এর জন্য সবচেয়ে ভালো। • এটি হেডারগুলোর (H1, H2, H3) ওপর ভিত্তি করে টেক্সট স্প্লিট করে। • এটি মেটাডেটা যোগ করে যাতে আপনি সেকশন অনুযায়ী রিট্রিভাল ফিল্টার করতে পারেন।
Hierarchical (Parent-Child) chunking প্রডাকশন সিস্টেমের জন্য সবচেয়ে ভালো যেখানে প্রিসিশন এবং কনটেক্সট উভয়ই প্রয়োজন। • নিখুঁত ভেক্টর সার্চের জন্য ছোট চাইল্ড চাঙ্ক (64-128 tokens) তৈরি করুন। • LLM-এর পড়ার জন্য সেগুলোকে বড় প্যারেন্ট চাঙ্কের (512-1024 tokens) সাথে লিঙ্ক করুন। • এটি আপনাকে উভয় দিক থেকেই সেরা ফলাফল দেবে।

আপনার সাইজ কীভাবে বেছে নেবেন:

• 128–256 tokens: ফ্যাক্ট-লুকআপ এবং টেকনিক্যাল ডকুমেন্টের জন্য ভালো। • 256–512 tokens: সাধারণ ব্যবহারের জন্য একটি মজবুত শুরুর পয়েন্ট। • 512–1024 tokens: দীর্ঘ ফরম্যাটের বিশ্লেষণধর্মী প্রশ্নের জন্য ব্যবহার করুন।

গোল্ডেন রুল: শিপ করার আগে সর্বদা আপনার কৌশলটি পরীক্ষা করুন।

30 থেকে 50টি বাস্তব কুয়েরির একটি সেট তৈরি করুন। সঠিক উত্তরগুলো চিহ্নিত (Annotate) করুন। আপনার recall@3 পরিমাপ করুন। যতক্ষণ না আপনার recall 80%-এর উপরে উঠছে, ততক্ষণ আপনার এমবেডিং মডেল পরিবর্তন করবেন না।

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi

RAG চাঙ্কিং কৌশলসমূহ: উন্নত রিট্রিভালের জন্য ডকুমেন্ট স্প্লিট করুন

Continue reading

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

৭টি ভুল করার আগে RAG ইনফ্রাস্ট্রাকচারে আমার ৫০০ ডলার খরচ হয়েছে

RAG ব্যবহার করে একটি কোড Q&A বট তৈরি করলাম: কী সফল হলো আর কী ব্যর্থ হলো

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

RAG-এর জন্য বিভিন্ন চাঙ্কিং পদ্ধতি