RAG चंकिंग धोरणे: उत्तम रिट्रिव्हलसाठी डॉक्युमेंट्स विभाजित करा

बहुतेक RAG अपयश ही तुमची डॉक्युमेंट्स विभाजित करण्याची पद्धत चुकल्यामुळे येते.

जर तुमचे रिट्रिव्हल (retrieval) खराब असेल, तर सर्वात आधी तुमचा प्रॉम्प्ट (prompt) किंवा तुमचा LLM बदलू नका. तुमच्या चंक्सकडे (chunks) लक्ष द्या. जर योग्य माहिती तुमच्या डेटाबेसमध्ये उपलब्ध असेल पण सिस्टम ती शोधू शकत नसेल, तर तुमच्या चंकिंग स्ट्रॅटेजीमध्ये (chunking strategy) समस्या असण्याची शक्यता आहे.

चुकीच्या चंकिंगमुळे तीन मुख्य समस्या उद्भवतात:

बाउंड्री ट्रंकेशन (Boundary truncation): उत्तरासह असलेले वाक्य दोन तुकड्यांमध्ये विभागले जाते. दोन्हीपैकी कोणत्याही तुकड्यात क्वेरीशी जुळण्यासाठी पुरेशी माहिती नसते. • कॉन्टेक्स्ट डायल्यूशन (Context dilution): एका मोठ्या चंक्समध्ये एक संबंधित वाक्य आणि दहा निरुपयोगी वाक्ये असतात. अतिरिक्त मजकुरामुळे सिमेंटिक सिग्नल (semantic signal) कमकुवत होतो. • मिसिंग मेटाडेटा (Missing metadata): चंक्समध्ये त्यांच्या स्त्रोताबद्दल किंवा तारखेबद्दल माहिती नसते, ज्यामुळे फिल्टर केलेली शोध प्रक्रिया (filtered search) अशक्य होते.

तुमची पाइपलाइन सुधारण्यासाठी या चार धोरणांचा (strategies) वापर करा:

1. फिक्स्ड-साईज चंकिंग (Fixed-size chunking)

रिपोर्ट किंवा लेखांसारख्या लांब, सलग मजकुरासाठी सर्वोत्तम. • 256 ते 512 टोकन्स वापरा. • वाक्ये विभागली जाऊ नयेत म्हणून 10% ते 15% ओव्हरलॅप (overlap) ठेवा.

2. सिमेंटिक चंकिंग (Semantic chunking)

FAQ किंवा सपोर्ट डॉक्युमेंट्ससारख्या उच्च-घनता असलेल्या मजकुरासाठी सर्वोत्तम. • हे टोकन संख्येऐवजी विषयातील बदलांवर आधारित मजकूर विभाजित करते. • यामुळे पूर्ण कल्पना एकत्र राहतात.

3. स्ट्रक्चरल चंकिंग (Structural chunking)

तांत्रिक डॉक्युमेंट्स, Markdown किंवा HTML साठी सर्वोत्तम. • हे हेडर्सवर (H1, H2, H3) आधारित मजकूर विभाजित करते. • यामुळे मेटाडेटा जोडला जातो, ज्यामुळे तुम्ही सेक्शननुसार रिट्रिव्हल फिल्टर करू शकता.

4. हायरार्किकल (पॅरेंट-चाइल्ड) चंकिंग (Hierarchical (Parent-Child) chunking)

अचूकता आणि कॉन्टेक्स्ट दोन्ही आवश्यक असलेल्या प्रोडक्शन सिस्टमसाठी सर्वोत्तम. • अचूक वेक्टर सर्चसाठी लहान चाइल्ड चंक्स (64-128 टोकन्स) तयार करा. • LLM ने वाचण्यासाठी त्यांना मोठ्या पॅरेंट चंक्सशी (512-1024 टोकन्स) जोडा. • यामुळे तुम्हाला दोन्ही गोष्टींचा फायदा मिळतो.

तुमच्यासाठी योग्य आकार कसा निवडाल:

128–256 टोकन्स: फॅक्ट-लुकअप आणि तांत्रिक डॉक्युमेंट्ससाठी चांगले. • 256–512 टोकन्स: सामान्य वापरासाठी एक उत्तम सुरुवात. • 512–1024 टोकन्स: दीर्घ स्वरूपाच्या विश्लेषणात्मक प्रश्नांसाठी वापरा.

सुवर्ण नियम: तुमची स्ट्रॅटेजी लागू करण्यापूर्वी नेहमी तिची चाचणी घ्या.

30 ते 50 वास्तविक क्वेरीजचा संच तयार करा. योग्य उत्तरांना टॅग (annotate) करा. तुमचा recall@3 मोजा. जोपर्यंत तुमचा recall 80% च्या वर जात नाही, तोपर्यंत तुमचे एम्बेडिंग मॉडेल (embedding model) बदलू नका.

Source: https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

Optional learning community: https://t.me/GyaanSetuAi