RAG ಚಂಕಿಂಗ್ ತಂತ್ರಗಳು: ಉತ್ತಮ ಮರುಪಡೆಯುವಿಕೆಗಾಗಿ (retrieval) ದಾಖಲೆಗಳನ್ನು ವಿಭಜಿಸಿ

ಹೆಚ್ಚಿನ RAG ವೈಫಲ್ಯಗಳು ನೀವು ನಿಮ್ಮ ದಾಖಲೆಗಳನ್ನು ಹೇಗೆ ವಿಭಜಿಸುತ್ತೀರಿ ಎಂಬುದರ ಕಾರಣದಿಂದ ಸಂಭವಿಸುತ್ತವೆ.

ನಿಮ್ಮ ಮರುಪಡೆಯುವಿಕೆ (retrieval) ಕಳಪೆಯಾಗಿದ್ದರೆ, ಮೊದಲು ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ (prompt) ಅಥವಾ ನಿಮ್ಮ LLM ಅನ್ನು ಬದಲಾಯಿಸಬೇಡಿ. ನಿಮ್ಮ ಚಂಕ್‌ಗಳನ್ನು (chunks) ಗಮನಿಸಿ. ಸರಿಯಾದ ಮಾಹಿತಿ ನಿಮ್ಮ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿದ್ದರೂ ಸಿಸ್ಟಮ್ ಅದನ್ನು ಹುಡುಕಲು ಸಾಧ್ಯವಾಗದಿದ್ದರೆ, ನಿಮ್ಮ ಚಂಕಿಂಗ್ ತಂತ್ರವೇ (chunking strategy) ಬಹುಶಃ ಸಮಸ್ಯೆಯಾಗಿರಬಹುದು.

ಕೆಟ್ಟ ಚಂಕಿಂಗ್ ಮೂರು ಮುಖ್ಯ ಸಮಸ್ಯೆಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ:

• ಗಡಿ ಕಡಿತ (Boundary truncation): ಉತ್ತರವಿರುವ ಒಂದು ವಾಕ್ಯವು ಎರಡು ಭಾಗಗಳಾಗಿ ವಿಭಜನೆಯಾಗುತ್ತದೆ. ಯಾವುದೇ ಭಾಗವು ಕ್ವೆರಿಯೊಂದಿಗೆ (query) ಹೊಂದಾಣಿಕೆಯಾಗಲು ಬೇಕಾದಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. • ಸಂದರ್ಭದ ಕ್ಷೀಣತೆ (Context dilution): ಒಂದು ದೊಡ್ಡ ಚಂಕ್‌ನಲ್ಲಿ ಒಂದು ಸಂಬಂಧಿತ ವಾಕ್ಯ ಮತ್ತು ಹತ್ತು ಅನಗತ್ಯ ವಾಕ್ಯಗಳಿರುತ್ತವೆ. ಹೆಚ್ಚುವರಿ ಪಠ್ಯವು ಸೆಂಮ್ಯಾಂಟಿಕ್ ಸಿಗ್ನಲ್ ಅನ್ನು (semantic signal) ದುರ್ಬಲಗೊಳಿಸುತ್ತದೆ. • ಮೆಟಾಡೇಟಾ ಕೊರತೆ (Missing metadata): ಚಂಕ್‌ಗಳು ಅವುಗಳ ಮೂಲ ಅಥವಾ ದಿನಾಂಕದ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ, ಇದು ಫಿಲ್ಟರ್ ಮಾಡಿದ ಹುಡುಕಾಟವನ್ನು (filtered search) ಅಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ.

ನಿಮ್ಮ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಸರಿಪಡಿಸಲು ಈ ನಾಲ್ಕು ತಂತ್ರಗಳನ್ನು ಬಳಸಿ:

  1. ನಿಗದಿತ ಗಾತ್ರದ ಚಂಕಿಂಗ್ (Fixed-size chunking) ವರದಿಗಳು ಅಥವಾ ಲೇಖನಗಳಂತಹ ದೀರ್ಘವಾದ, ನಿರಂತರ ಗದ್ಯಕ್ಕೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • 256 ರಿಂದ 512 ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸಿ. • ವಾಕ್ಯಗಳು ವಿಭಜನೆಯಾಗುವುದನ್ನು ತಡೆಯಲು 10% ರಿಂದ 15% ಓವರ್‌ಲ್ಯಾಪ್ (overlap) ಅನ್ನು ನಿಗದಿಪಡಿಸಿ.

  2. ಸೆಂಮ್ಯಾಂಟಿಕ್ ಚಂಕಿಂಗ್ (Semantic chunking) FAQs ಅಥವಾ ಸಪೋರ್ಟ್ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಂತಹ ಹೆಚ್ಚಿನ ಸಾಂದ್ರತೆಯ ಪಠ್ಯಕ್ಕೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • ಇದು ಟೋಕನ್ ಸಂಖ್ಯೆಗಳಿಗಿಂತ ಹೆಚ್ಚಾಗಿ ವಿಷಯದ ಬದಲಾವಣೆಗಳ (topic shifts) ಆಧಾರದ ಮೇಲೆ ಪಠ್ಯವನ್ನು ವಿಭಜಿಸುತ್ತದೆ. • ಇದು ಸಂಪೂರ್ಣ ವಿಚಾರಗಳನ್ನು ಒಟ್ಟಿಗೆ ಇರಿಸುತ್ತದೆ.

  3. ರಚನಾತ್ಮಕ ಚಂಕಿಂಗ್ (Structural chunking) ತಾಂತ್ರಿಕ ದಾಖಲೆಗಳು, Markdown ಅಥವಾ HTML ಗೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • ಇದು ಹೆಡರ್ಸ್‌ಗಳ (H1, H2, H3) ಆಧಾರದ ಮೇಲೆ ಪಠ್ಯವನ್ನು ವಿಭಜಿಸುತ್ತದೆ. • ಇದು ಮೆಟಾಡೇಟಾವನ್ನು ಸೇರಿಸುತ್ತದೆ, ಇದರಿಂದ ನೀವು ವಿಭಾಗದ (section) ಮೂಲಕ ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಬಹುದು.

  4. ಶ್ರೇಣೀಕೃತ (Hierarchical/Parent-Child) ಚಂಕಿಂಗ್ ನಿಖರತೆ ಮತ್ತು ಸಂದರ್ಭ ಎರಡೂ ಅಗತ್ಯವಿರುವ ಪ್ರೊಡಕ್ಷನ್ ಸಿಸ್ಟಮ್‌ಗಳಿಗೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • ನಿಖರವಾದ ವೆಕ್ಟರ್ ಸರ್ಚ್ (vector search) ಗಾಗಿ ಸಣ್ಣ ಚೈಲ್ಡ್ ಚಂಕ್‌ಗಳನ್ನು (64-128 ಟೋಕನ್‌ಗಳು) ರಚಿಸಿ. • LLM ಓದುವಿಕೆಗಾಗಿ ಅವುಗಳನ್ನು ದೊಡ್ಡ ಪೇರೆಂಟ್ ಚಂಕ್‌ಗಳಿಗೆ (512-1024 ಟೋಕನ್‌ಗಳು) ಲಿಂಕ್ ಮಾಡಿ. • ಇದು ನಿಮಗೆ ಎರಡೂ worlds‌ನ ಅತ್ಯುತ್ತಮ ಪ್ರಯೋಜನಗಳನ್ನು ನೀಡುತ್ತದೆ.

ನಿಮ್ಮ ಗಾತ್ರವನ್ನು ಹೇಗೆ ಆಯ್ಕೆ ಮಾಡುವುದು:

• 128–256 ಟೋಕನ್‌ಗಳು: ಫ್ಯಾಕ್ಟ್-ಲುಕ್‌ಅಪ್ (fact-lookup) ಮತ್ತು ತಾಂತ್ರಿಕ ದಾಖಲೆಗಳಿಗೆ ಉತ್ತಮ. • 256–512 ಟೋಕನ್‌ಗಳು: ಸಾಮಾನ್ಯ ಬಳಕೆಗೆ ಇದು ಒಂದು ಉತ್ತಮ ಆರಂಭಿಕ ಬಿಂದು. • 512–1024 ಟೋಕನ್‌ಗಳು: ದೀರ್ಘ ರೂಪದ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಬಳಸಿ.

ಸುವರ್ಣ ನಿಯಮ: ನಿಮ್ಮ ತಂತ್ರವನ್ನು ಬಳಸುವ ಮೊದಲು ಯಾವಾಗಲೂ ಪರೀಕ್ಷಿಸಿ.

30 ರಿಂದ 50 ನೈಜ ಕ್ವೆರಿಗಳ ಸೆಟ್ ಅನ್ನು ತಯಾರಿಸಿ. ಸರಿಯಾದ ಉತ್ತರಗಳನ್ನು ಗುರುತಿಸಿ (Annotate). ನಿಮ್ಮ recall@3 ಅನ್ನು ಅಳೆಯಿರಿ. ನಿಮ್ಮ recall 80% ಕ್ಕಿಂತ ಹೆಚ್ಚಾಗುವವರೆಗೆ ನಿಮ್ಮ ಎಂಬೆಡ್ಡಿಂಗ್ ಮಾಡೆಲ್ ಅನ್ನು (embedding model) ಬದಲಾಯಿಸಬೇಡಿ.

ಮೂಲ (Source): https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ (Optional learning community): https://t.me/GyaanSetuAi