RAG के लिए विभिन्न चंकिंग विधियाँ (Chunking Methods)
Large Language Models में टोकन की सीमा होती है। इसे ठीक करने के लिए, आप चंकिंग (chunking) का उपयोग करते हैं। चंकिंग लंबे टेक्स्ट को छोटे टुकड़ों में तोड़ देती है। इससे आपके मॉडल को मेमोरी खत्म हुए बिना डेटा प्रोसेस करने में मदद मिलती है।
यदि आप Retrieval-Augmented Generation (RAG) का उपयोग करते हैं, तो चंकिंग अत्यंत महत्वपूर्ण है। RAG मॉडल्स को 'hallucinations' (भ्रम) से बचाने के लिए सत्य का एक स्रोत (source of truth) प्रदान करता है। आप टेक्स्ट को एम्बेडिंग्स (embeddings) नामक संख्याओं में बदलते हैं और उन्हें एक वेक्टर डेटाबेस में स्टोर करते हैं।
आपकी खोज (search) की गुणवत्ता आपके चंक्स (chunks) पर निर्भर करती है। यदि चंक्स बहुत बड़े या बहुत छोटे हैं, तो AI सही उत्तर खोजने में विफल हो जाता है।
यहाँ आपके डेटा को चंक करने के पाँच तरीके दिए गए हैं:
Fixed-Size Chunking यह विधि टेक्स्ट को वर्णों (characters) की एक निश्चित संख्या पर विभाजित करती है। यह तेज़ और सस्ती है। हालाँकि, यह संदर्भ (context) के प्रति सचेत नहीं होती है। यह अक्सर वाक्यों को बीच में से काट देती है।
Recursive Character Splitting यह इंडस्ट्री स्टैंडर्ड है। यह न्यूलाइन्स (newlines) और स्पेस जैसे सेपरेटर्स के पदानुक्रम (hierarchy) का उपयोग करता है। यह संबंधित वाक्यों को एक ही ब्लॉक में रखने का प्रयास करता है। सामान्य लेखों के लिए इसका उपयोग करें।
Document-Specific Chunking यह विधि आपकी फ़ाइल की संरचना को देखती है। यह सीमाओं को खोजने के लिए HTML में टैग या Markdown में हेडर का उपयोग करती है। यह कोड या विशिष्ट अनुभागों को सुरक्षित रखता है।
Semantic Chunking यह विधि वर्णों के बजाय अर्थ (meaning) पर ध्यान केंद्रित करती है। यह उन वाक्यों को समूहबद्ध करती है जो एक ही विषय पर चर्चा करते हैं। यह ऐसे चंक्स बनाती है जो एक ही विषय पर केंद्रित रहते हैं। इसे काम करने के लिए एक एम्बेडिंग मॉडल की आवश्यकता होती है।
Agentic Chunking एक AI एजेंट यह तय करने के लिए टेक्स्ट को पढ़ता है कि इसे कहाँ विभाजित किया जाए। एजेंट आगे बढ़ने से पहले पूछता है कि क्या कोई विचार (thought) पूरा हो गया है। यह सबसे सटीक विधि है लेकिन सबसे धीमी और सबसे महंगी भी है।
त्वरित तुलना:
• Fixed-Size: प्रोटोटाइप के लिए सर्वश्रेष्ठ। बहुत आसान। $0 लागत। • Recursive: सामान्य टेक्स्ट के लिए सर्वश्रेष्ठ। आसान। $0 लागत। • Document: कोड या HTML के लिए सर्वश्रेष्ठ। मध्यम कठिनाई। $0 लागत। • Semantic: गहन शोध के लिए सर्वश्रेष्ठ। कठिन। कम लागत। • Agentic: उच्च सटीकता के लिए सर्वश्रेष्ठ। बहुत कठिन। उच्च लागत।
सही रणनीति चुनना आपके AI परिणामों को बदल देता है। मैं जल्द ही इन विधियों पर अधिक विवरण साझा करूँगा।
स्रोत: https://dev.to/yashbhoskar/different-chunking-methods-for-rag-j4g
वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi
