RAG के लिए विभिन्न चंकिंग विधियाँ

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorialपिछला सप्ताह2मिनट पढ़ें

RAG के लिए विभिन्न चंकिंग विधियाँ (Chunking Methods)

Large Language Models में टोकन की सीमा होती है। इसे ठीक करने के लिए, आप चंकिंग (chunking) का उपयोग करते हैं। चंकिंग लंबे टेक्स्ट को छोटे टुकड़ों में तोड़ देती है। इससे आपके मॉडल को मेमोरी खत्म हुए बिना डेटा प्रोसेस करने में मदद मिलती है।

यदि आप Retrieval-Augmented Generation (RAG) का उपयोग करते हैं, तो चंकिंग अत्यंत महत्वपूर्ण है। RAG मॉडल्स को 'hallucinations' (भ्रम) से बचाने के लिए सत्य का एक स्रोत (source of truth) प्रदान करता है। आप टेक्स्ट को एम्बेडिंग्स (embeddings) नामक संख्याओं में बदलते हैं और उन्हें एक वेक्टर डेटाबेस में स्टोर करते हैं।

आपकी खोज (search) की गुणवत्ता आपके चंक्स (chunks) पर निर्भर करती है। यदि चंक्स बहुत बड़े या बहुत छोटे हैं, तो AI सही उत्तर खोजने में विफल हो जाता है।

यहाँ आपके डेटा को चंक करने के पाँच तरीके दिए गए हैं:

Fixed-Size Chunking यह विधि टेक्स्ट को वर्णों (characters) की एक निश्चित संख्या पर विभाजित करती है। यह तेज़ और सस्ती है। हालाँकि, यह संदर्भ (context) के प्रति सचेत नहीं होती है। यह अक्सर वाक्यों को बीच में से काट देती है।
Recursive Character Splitting यह इंडस्ट्री स्टैंडर्ड है। यह न्यूलाइन्स (newlines) और स्पेस जैसे सेपरेटर्स के पदानुक्रम (hierarchy) का उपयोग करता है। यह संबंधित वाक्यों को एक ही ब्लॉक में रखने का प्रयास करता है। सामान्य लेखों के लिए इसका उपयोग करें।
Document-Specific Chunking यह विधि आपकी फ़ाइल की संरचना को देखती है। यह सीमाओं को खोजने के लिए HTML में टैग या Markdown में हेडर का उपयोग करती है। यह कोड या विशिष्ट अनुभागों को सुरक्षित रखता है।
Semantic Chunking यह विधि वर्णों के बजाय अर्थ (meaning) पर ध्यान केंद्रित करती है। यह उन वाक्यों को समूहबद्ध करती है जो एक ही विषय पर चर्चा करते हैं। यह ऐसे चंक्स बनाती है जो एक ही विषय पर केंद्रित रहते हैं। इसे काम करने के लिए एक एम्बेडिंग मॉडल की आवश्यकता होती है।
Agentic Chunking एक AI एजेंट यह तय करने के लिए टेक्स्ट को पढ़ता है कि इसे कहाँ विभाजित किया जाए। एजेंट आगे बढ़ने से पहले पूछता है कि क्या कोई विचार (thought) पूरा हो गया है। यह सबसे सटीक विधि है लेकिन सबसे धीमी और सबसे महंगी भी है।

त्वरित तुलना:

• Fixed-Size: प्रोटोटाइप के लिए सर्वश्रेष्ठ। बहुत आसान। $0 लागत। • Recursive: सामान्य टेक्स्ट के लिए सर्वश्रेष्ठ। आसान। $0 लागत। • Document: कोड या HTML के लिए सर्वश्रेष्ठ। मध्यम कठिनाई। $0 लागत। • Semantic: गहन शोध के लिए सर्वश्रेष्ठ। कठिन। कम लागत। • Agentic: उच्च सटीकता के लिए सर्वश्रेष्ठ। बहुत कठिन। उच्च लागत।

सही रणनीति चुनना आपके AI परिणामों को बदल देता है। मैं जल्द ही इन विधियों पर अधिक विवरण साझा करूँगा।

स्रोत: https://dev.to/yashbhoskar/different-chunking-methods-for-rag-j4g

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

RAG के लिए विभिन्न चंकिंग विधियाँ

पढ़ना जारी रखें

7 गलतियाँ करने से पहले मैंने RAG इंफ्रास्ट्रक्चर पर $500 खर्च किए

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

RAG चंकिंग रणनीतियाँ: बेहतर रिट्रीवल के लिए डॉक्यूमेंट्स को विभाजित करें

MCP + RAG: मैंने जटिल RAG सिस्टम बनाना क्यों बंद कर दिया

उन्नत RAG तकनीकें बेहतर नहीं हैं। वे कभी-कभी बेहतर होती हैं।