RAG चंकिंग स्ट्रॅटेजीज: उत्तम रिट्रिव्हलसाठी डॉक्युमेंट्स विभाजित करा

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialमागील आठवडा2min read

RAG चंकिंग स्ट्रॅटेजीज: उत्तम रिट्रिव्हलसाठी डॉक्युमेंट्स विभाजित करा

In this article

RAG चंकिंग धोरणे: उत्तम रिट्रिव्हलसाठी डॉक्युमेंट्स विभाजित करा

बहुतेक RAG अपयश ही तुमची डॉक्युमेंट्स विभाजित करण्याची पद्धत चुकल्यामुळे येते.

जर तुमचे रिट्रिव्हल (retrieval) खराब असेल, तर सर्वात आधी तुमचा प्रॉम्प्ट (prompt) किंवा तुमचा LLM बदलू नका. तुमच्या चंक्सकडे (chunks) लक्ष द्या. जर योग्य माहिती तुमच्या डेटाबेसमध्ये उपलब्ध असेल पण सिस्टम ती शोधू शकत नसेल, तर तुमच्या चंकिंग स्ट्रॅटेजीमध्ये (chunking strategy) समस्या असण्याची शक्यता आहे.

चुकीच्या चंकिंगमुळे तीन मुख्य समस्या उद्भवतात:

• बाउंड्री ट्रंकेशन (Boundary truncation): उत्तरासह असलेले वाक्य दोन तुकड्यांमध्ये विभागले जाते. दोन्हीपैकी कोणत्याही तुकड्यात क्वेरीशी जुळण्यासाठी पुरेशी माहिती नसते. • कॉन्टेक्स्ट डायल्यूशन (Context dilution): एका मोठ्या चंक्समध्ये एक संबंधित वाक्य आणि दहा निरुपयोगी वाक्ये असतात. अतिरिक्त मजकुरामुळे सिमेंटिक सिग्नल (semantic signal) कमकुवत होतो. • मिसिंग मेटाडेटा (Missing metadata): चंक्समध्ये त्यांच्या स्त्रोताबद्दल किंवा तारखेबद्दल माहिती नसते, ज्यामुळे फिल्टर केलेली शोध प्रक्रिया (filtered search) अशक्य होते.

तुमची पाइपलाइन सुधारण्यासाठी या चार धोरणांचा (strategies) वापर करा:

1. फिक्स्ड-साईज चंकिंग (Fixed-size chunking)

रिपोर्ट किंवा लेखांसारख्या लांब, सलग मजकुरासाठी सर्वोत्तम. • 256 ते 512 टोकन्स वापरा. • वाक्ये विभागली जाऊ नयेत म्हणून 10% ते 15% ओव्हरलॅप (overlap) ठेवा.

2. सिमेंटिक चंकिंग (Semantic chunking)

FAQ किंवा सपोर्ट डॉक्युमेंट्ससारख्या उच्च-घनता असलेल्या मजकुरासाठी सर्वोत्तम. • हे टोकन संख्येऐवजी विषयातील बदलांवर आधारित मजकूर विभाजित करते. • यामुळे पूर्ण कल्पना एकत्र राहतात.

3. स्ट्रक्चरल चंकिंग (Structural chunking)

तांत्रिक डॉक्युमेंट्स, Markdown किंवा HTML साठी सर्वोत्तम. • हे हेडर्सवर (H1, H2, H3) आधारित मजकूर विभाजित करते. • यामुळे मेटाडेटा जोडला जातो, ज्यामुळे तुम्ही सेक्शननुसार रिट्रिव्हल फिल्टर करू शकता.

4. हायरार्किकल (पॅरेंट-चाइल्ड) चंकिंग (Hierarchical (Parent-Child) chunking)

अचूकता आणि कॉन्टेक्स्ट दोन्ही आवश्यक असलेल्या प्रोडक्शन सिस्टमसाठी सर्वोत्तम. • अचूक वेक्टर सर्चसाठी लहान चाइल्ड चंक्स (64-128 टोकन्स) तयार करा. • LLM ने वाचण्यासाठी त्यांना मोठ्या पॅरेंट चंक्सशी (512-1024 टोकन्स) जोडा. • यामुळे तुम्हाला दोन्ही गोष्टींचा फायदा मिळतो.

तुमच्यासाठी योग्य आकार कसा निवडाल:

• 128–256 टोकन्स: फॅक्ट-लुकअप आणि तांत्रिक डॉक्युमेंट्ससाठी चांगले. • 256–512 टोकन्स: सामान्य वापरासाठी एक उत्तम सुरुवात. • 512–1024 टोकन्स: दीर्घ स्वरूपाच्या विश्लेषणात्मक प्रश्नांसाठी वापरा.

सुवर्ण नियम: तुमची स्ट्रॅटेजी लागू करण्यापूर्वी नेहमी तिची चाचणी घ्या.

30 ते 50 वास्तविक क्वेरीजचा संच तयार करा. योग्य उत्तरांना टॅग (annotate) करा. तुमचा recall@3 मोजा. जोपर्यंत तुमचा recall 80% च्या वर जात नाही, तोपर्यंत तुमचे एम्बेडिंग मॉडेल (embedding model) बदलू नका.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi

RAG चंकिंग स्ट्रॅटेजीज: उत्तम रिट्रिव्हलसाठी डॉक्युमेंट्स विभाजित करा

RAG चंकिंग धोरणे: उत्तम रिट्रिव्हलसाठी डॉक्युमेंट्स विभाजित करा

1. फिक्स्ड-साईज चंकिंग (Fixed-size chunking)

2. सिमेंटिक चंकिंग (Semantic chunking)

3. स्ट्रक्चरल चंकिंग (Structural chunking)

4. हायरार्किकल (पॅरेंट-चाइल्ड) चंकिंग (Hierarchical (Parent-Child) chunking)

Continue reading

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

मी RAG वापरून एक कोड Q&A बॉट तयार केला: काय यशस्वी झाले आणि काय अपयशी ठरले

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

RAG साठी विविध चंकिंग पद्धती