RAG ಚಂಕಿಂಗ್ ತಂತ್ರಗಳು: ಉತ್ತಮ ರಿಟ್ರಿೀವಲ್ ಗಾಗಿ ದಾಖಲೆಗಳನ್ನು ವಿಭಜಿಸಿ

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorialಕಳೆದ ವಾರ2min read

RAG ಚಂಕಿಂಗ್ ತಂತ್ರಗಳು: ಉತ್ತಮ ರಿಟ್ರಿೀವಲ್ ಗಾಗಿ ದಾಖಲೆಗಳನ್ನು ವಿಭಜಿಸಿ

RAG ಚಂಕಿಂಗ್ ತಂತ್ರಗಳು: ಉತ್ತಮ ಮರುಪಡೆಯುವಿಕೆಗಾಗಿ (retrieval) ದಾಖಲೆಗಳನ್ನು ವಿಭಜಿಸಿ

ಹೆಚ್ಚಿನ RAG ವೈಫಲ್ಯಗಳು ನೀವು ನಿಮ್ಮ ದಾಖಲೆಗಳನ್ನು ಹೇಗೆ ವಿಭಜಿಸುತ್ತೀರಿ ಎಂಬುದರ ಕಾರಣದಿಂದ ಸಂಭವಿಸುತ್ತವೆ.

ನಿಮ್ಮ ಮರುಪಡೆಯುವಿಕೆ (retrieval) ಕಳಪೆಯಾಗಿದ್ದರೆ, ಮೊದಲು ನಿಮ್ಮ ಪ್ರಾಂಪ್ಟ್ (prompt) ಅಥವಾ ನಿಮ್ಮ LLM ಅನ್ನು ಬದಲಾಯಿಸಬೇಡಿ. ನಿಮ್ಮ ಚಂಕ್‌ಗಳನ್ನು (chunks) ಗಮನಿಸಿ. ಸರಿಯಾದ ಮಾಹಿತಿ ನಿಮ್ಮ ಡೇಟಾಬೇಸ್‌ನಲ್ಲಿದ್ದರೂ ಸಿಸ್ಟಮ್ ಅದನ್ನು ಹುಡುಕಲು ಸಾಧ್ಯವಾಗದಿದ್ದರೆ, ನಿಮ್ಮ ಚಂಕಿಂಗ್ ತಂತ್ರವೇ (chunking strategy) ಬಹುಶಃ ಸಮಸ್ಯೆಯಾಗಿರಬಹುದು.

ಕೆಟ್ಟ ಚಂಕಿಂಗ್ ಮೂರು ಮುಖ್ಯ ಸಮಸ್ಯೆಗಳನ್ನು ಉಂಟುಮಾಡುತ್ತದೆ:

• ಗಡಿ ಕಡಿತ (Boundary truncation): ಉತ್ತರವಿರುವ ಒಂದು ವಾಕ್ಯವು ಎರಡು ಭಾಗಗಳಾಗಿ ವಿಭಜನೆಯಾಗುತ್ತದೆ. ಯಾವುದೇ ಭಾಗವು ಕ್ವೆರಿಯೊಂದಿಗೆ (query) ಹೊಂದಾಣಿಕೆಯಾಗಲು ಬೇಕಾದಷ್ಟು ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ. • ಸಂದರ್ಭದ ಕ್ಷೀಣತೆ (Context dilution): ಒಂದು ದೊಡ್ಡ ಚಂಕ್‌ನಲ್ಲಿ ಒಂದು ಸಂಬಂಧಿತ ವಾಕ್ಯ ಮತ್ತು ಹತ್ತು ಅನಗತ್ಯ ವಾಕ್ಯಗಳಿರುತ್ತವೆ. ಹೆಚ್ಚುವರಿ ಪಠ್ಯವು ಸೆಂಮ್ಯಾಂಟಿಕ್ ಸಿಗ್ನಲ್ ಅನ್ನು (semantic signal) ದುರ್ಬಲಗೊಳಿಸುತ್ತದೆ. • ಮೆಟಾಡೇಟಾ ಕೊರತೆ (Missing metadata): ಚಂಕ್‌ಗಳು ಅವುಗಳ ಮೂಲ ಅಥವಾ ದಿನಾಂಕದ ಬಗ್ಗೆ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರುವುದಿಲ್ಲ, ಇದು ಫಿಲ್ಟರ್ ಮಾಡಿದ ಹುಡುಕಾಟವನ್ನು (filtered search) ಅಸಾಧ್ಯವಾಗಿಸುತ್ತದೆ.

ನಿಮ್ಮ ಪೈಪ್‌ಲೈನ್ ಅನ್ನು ಸರಿಪಡಿಸಲು ಈ ನಾಲ್ಕು ತಂತ್ರಗಳನ್ನು ಬಳಸಿ:

ನಿಗದಿತ ಗಾತ್ರದ ಚಂಕಿಂಗ್ (Fixed-size chunking) ವರದಿಗಳು ಅಥವಾ ಲೇಖನಗಳಂತಹ ದೀರ್ಘವಾದ, ನಿರಂತರ ಗದ್ಯಕ್ಕೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • 256 ರಿಂದ 512 ಟೋಕನ್‌ಗಳನ್ನು ಬಳಸಿ. • ವಾಕ್ಯಗಳು ವಿಭಜನೆಯಾಗುವುದನ್ನು ತಡೆಯಲು 10% ರಿಂದ 15% ಓವರ್‌ಲ್ಯಾಪ್ (overlap) ಅನ್ನು ನಿಗದಿಪಡಿಸಿ.
ಸೆಂಮ್ಯಾಂಟಿಕ್ ಚಂಕಿಂಗ್ (Semantic chunking) FAQs ಅಥವಾ ಸಪೋರ್ಟ್ ಡಾಕ್ಯುಮೆಂಟ್‌ಗಳಂತಹ ಹೆಚ್ಚಿನ ಸಾಂದ್ರತೆಯ ಪಠ್ಯಕ್ಕೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • ಇದು ಟೋಕನ್ ಸಂಖ್ಯೆಗಳಿಗಿಂತ ಹೆಚ್ಚಾಗಿ ವಿಷಯದ ಬದಲಾವಣೆಗಳ (topic shifts) ಆಧಾರದ ಮೇಲೆ ಪಠ್ಯವನ್ನು ವಿಭಜಿಸುತ್ತದೆ. • ಇದು ಸಂಪೂರ್ಣ ವಿಚಾರಗಳನ್ನು ಒಟ್ಟಿಗೆ ಇರಿಸುತ್ತದೆ.
ರಚನಾತ್ಮಕ ಚಂಕಿಂಗ್ (Structural chunking) ತಾಂತ್ರಿಕ ದಾಖಲೆಗಳು, Markdown ಅಥವಾ HTML ಗೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • ಇದು ಹೆಡರ್ಸ್‌ಗಳ (H1, H2, H3) ಆಧಾರದ ಮೇಲೆ ಪಠ್ಯವನ್ನು ವಿಭಜಿಸುತ್ತದೆ. • ಇದು ಮೆಟಾಡೇಟಾವನ್ನು ಸೇರಿಸುತ್ತದೆ, ಇದರಿಂದ ನೀವು ವಿಭಾಗದ (section) ಮೂಲಕ ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ಫಿಲ್ಟರ್ ಮಾಡಬಹುದು.
ಶ್ರೇಣೀಕೃತ (Hierarchical/Parent-Child) ಚಂಕಿಂಗ್ ನಿಖರತೆ ಮತ್ತು ಸಂದರ್ಭ ಎರಡೂ ಅಗತ್ಯವಿರುವ ಪ್ರೊಡಕ್ಷನ್ ಸಿಸ್ಟಮ್‌ಗಳಿಗೆ ಇದು ಅತ್ಯುತ್ತಮವಾಗಿದೆ. • ನಿಖರವಾದ ವೆಕ್ಟರ್ ಸರ್ಚ್ (vector search) ಗಾಗಿ ಸಣ್ಣ ಚೈಲ್ಡ್ ಚಂಕ್‌ಗಳನ್ನು (64-128 ಟೋಕನ್‌ಗಳು) ರಚಿಸಿ. • LLM ಓದುವಿಕೆಗಾಗಿ ಅವುಗಳನ್ನು ದೊಡ್ಡ ಪೇರೆಂಟ್ ಚಂಕ್‌ಗಳಿಗೆ (512-1024 ಟೋಕನ್‌ಗಳು) ಲಿಂಕ್ ಮಾಡಿ. • ಇದು ನಿಮಗೆ ಎರಡೂ worlds‌ನ ಅತ್ಯುತ್ತಮ ಪ್ರಯೋಜನಗಳನ್ನು ನೀಡುತ್ತದೆ.

ನಿಮ್ಮ ಗಾತ್ರವನ್ನು ಹೇಗೆ ಆಯ್ಕೆ ಮಾಡುವುದು:

• 128–256 ಟೋಕನ್‌ಗಳು: ಫ್ಯಾಕ್ಟ್-ಲುಕ್‌ಅಪ್ (fact-lookup) ಮತ್ತು ತಾಂತ್ರಿಕ ದಾಖಲೆಗಳಿಗೆ ಉತ್ತಮ. • 256–512 ಟೋಕನ್‌ಗಳು: ಸಾಮಾನ್ಯ ಬಳಕೆಗೆ ಇದು ಒಂದು ಉತ್ತಮ ಆರಂಭಿಕ ಬಿಂದು. • 512–1024 ಟೋಕನ್‌ಗಳು: ದೀರ್ಘ ರೂಪದ ವಿಶ್ಲೇಷಣಾತ್ಮಕ ಪ್ರಶ್ನೆಗಳಿಗಾಗಿ ಬಳಸಿ.

ಸುವರ್ಣ ನಿಯಮ: ನಿಮ್ಮ ತಂತ್ರವನ್ನು ಬಳಸುವ ಮೊದಲು ಯಾವಾಗಲೂ ಪರೀಕ್ಷಿಸಿ.

30 ರಿಂದ 50 ನೈಜ ಕ್ವೆರಿಗಳ ಸೆಟ್ ಅನ್ನು ತಯಾರಿಸಿ. ಸರಿಯಾದ ಉತ್ತರಗಳನ್ನು ಗುರುತಿಸಿ (Annotate). ನಿಮ್ಮ recall@3 ಅನ್ನು ಅಳೆಯಿರಿ. ನಿಮ್ಮ recall 80% ಕ್ಕಿಂತ ಹೆಚ್ಚಾಗುವವರೆಗೆ ನಿಮ್ಮ ಎಂಬೆಡ್ಡಿಂಗ್ ಮಾಡೆಲ್ ಅನ್ನು (embedding model) ಬದಲಾಯಿಸಬೇಡಿ.

ಮೂಲ (Source): https://dev.to/dishant_sethi/rag-pipeline-chunking-strategies-split-documents-for-better-retrieval-aoe

ಐಚ್ಛಿಕ ಕಲಿಕಾ ಸಮುದಾಯ (Optional learning community): https://t.me/GyaanSetuAi

RAG ಚಂಕಿಂಗ್ ತಂತ್ರಗಳು: ಉತ್ತಮ ರಿಟ್ರಿೀವಲ್ ಗಾಗಿ ದಾಖಲೆಗಳನ್ನು ವಿಭಜಿಸಿ

Continue reading

𝗜 𝗦𝗽𝗲𝗻𝘁 $𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗙𝗶𝘅𝗶𝗻𝗴 𝗧𝗵𝗲𝘀𝗲 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗦𝗽𝗲𝗻𝘁 \$𝟱𝟬𝟬 𝗼𝗻 𝗥𝗔𝗚 𝗜𝗻𝗳𝗿𝗮𝘀𝘁𝗿𝘂𝗰𝘁𝘂𝗿𝗲 𝗕𝗲𝗳𝗼𝗿𝗲 𝗠𝗮𝗸𝗶𝗻𝗴 𝟳 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀

𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗖𝗼𝗱𝗲 𝗤&𝗔 𝗕𝗼𝘁 𝗪𝗶𝘁𝗵 𝗥𝗔𝗚: 𝗪𝗵𝗮𝘁 𝗪𝗼𝗿𝗸𝗲𝗱 𝗮𝗻𝗱 𝗪𝗵𝗮𝘁 𝗙𝗮𝗶𝗹𝗲𝗱

𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀

RAG ಗಾಗಿ ವಿವಿಧ ಚಂಕಿಂಗ್ ವಿಧಾನಗಳು