𝗪𝗵𝘆 𝗬𝗼𝘂𝗿 𝗥𝗔𝗚 𝗦𝘆𝘀𝘁𝗲𝗺 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗲𝘀
உங்கள் RAG அமைப்பு ஏன் தவறான தகவல்களை (Hallucinate) உருவாக்குகிறது
உங்கள் RAG அமைப்பின் மீட்டெடுப்புத் துல்லியம் (retrieval accuracy) 34% ஆக உள்ளது. நீங்கள் அனைத்துப் பயிற்சிகளையும் (tutorials) பின்பற்றினீர்கள். சரியான நூலகங்களைப் (libraries) பயன்படுத்தினீர்கள். ஒரு வலைப்பதிவிலிருந்து (blog post) chunk அளவைத் தேர்ந்தெடுத்தீர்கள். இருப்பினும், அந்த அமைப்பு இன்னும் தோல்வியடைகிறது.
இது கருவிகளின் (tooling) பிரச்சனை அல்ல. இது அடிப்படைக் கோட்பாடுகளின் (fundamentals) பிரச்சனை.
அவற்றின் அடியில் உள்ள அடுக்குகளைப் புரிந்து கொள்ளாமல் நீங்கள் நூலகங்களை ஒன்றன் மேல் ஒன்றாக அடுக்கும்போது, நீங்கள் ஒரு abstraction debt-ஐ உருவாக்குகிறீர்கள். நீங்கள் வேகத்தைப் பெறுகிறீர்கள், ஆனால் பிழைகளைத் திருத்தும் (debug) திறனை இழக்கிறீர்கள். நீங்கள் ஒரு black box-ஐ உருவாக்குகிறீர்கள்.
உங்கள் RAG pipeline-ஐச் சரிசெய்ய, நீங்கள் மூன்று அடுக்குகளில் தேர்ச்சி பெற வேண்டும்:
Chunking Strategy Chunk அளவு என்பது ஒரு அர்த்தரீதியான (semantic) முடிவு. உங்கள் chunks 512 tokens ஆக இருந்தால், நீங்கள் பத்திகளை (paragraphs) மீட்டெடுப்பீர்கள். உங்கள் கேள்விகள் பல பத்திகளுக்கு இடையே உள்ள கருத்துக்களை இணைக்கத் தேவைப்பட்டால், உங்கள் chunks மிகவும் சிறியவை என்று அர்த்தம். ஒவ்வொரு chunk-க்கும் இடையே எவ்வளவு சூழல் (context) செல்ல வேண்டும் என்பதை நீங்கள் தீர்மானிக்க வேண்டும்.
Embedding Models Dense embeddings பொருளைப் பிடிக்கின்றன, ஆனால் துல்லியமான தொடரியலை (syntax) இழக்கின்றன. ஒரு மாதிரி "error 403" மற்றும் "error 404" ஆகியவற்றை கிட்டத்தட்ட ஒரே மாதிரியாகக் கருதலாம். உங்கள் மாதிரி எதைப் பிடிக்கிறது என்பதை நீங்கள் அறிந்திருக்க வேண்டும். ஒரு சட்ட ஒப்பந்தத்திற்கு (legal contract), ஒரு குறியீட்டு களஞ்சியத்தை (code repository) விட வேறுபட்ட embeddings தேவைப்படும்.
Retrieval vs. Recall Vector search சாத்தியமான தொடர்புடைய அனைத்தையும் கண்டறிகிறது. இது recall ஆகும். Production RAG-க்கு துல்லியம் (precision) தேவை. உங்களுக்கு பத்து ஒத்த பத்திகள் தேவையில்லை, துல்லியமான பதில் தேவை. இதனால்தான் உங்களுக்கு hybrid search தேவைப்படுகிறது.
Hybrid search என்பது dense vectors மற்றும் keyword matching (BM25) ஆகியவற்றை இணைக்கிறது.
- தூய semantic search துல்லியமான குறியீடுகள் (codes) அல்லது ID-களைத் தவறவிடலாம்.
- தூய keyword search கருத்தியல் பொருளைத் (conceptual meaning) தவறவிடலாம்.
- Hybrid search உண்மையைச் கண்டறிய இரண்டிற்கும் முக்கியத்துவம் (weights) அளிக்கிறது.
சரியான எடை (weight) என்பது எந்த ஒரு கையேட்டிலும் (manual) இருக்காது. உங்கள் குறிப்பிட்ட தரவைச் சோதிப்பதன் மூலம் நீங்கள் அதைக் கண்டறியலாம்.
மாயாஜாலங்களை நம்புவதை நிறுத்துங்கள். உங்களால் ஒரு அடிப்படை RAG pipeline-ஐ ஆரம்பத்திலிருந்து (from scratch) உருவாக்க முடியாவிட்டால், நீங்கள் Agentic RAG-க்குத் தயாராக இல்லை என்று அர்த்தம். அடிப்படைகளைப் புரிந்து கொள்ளாதபோது சிக்கல்கள் பெருகுகின்றன.
உங்கள் அடுத்த திட்டத்திற்கு முன் இந்த நான்கு விஷயங்களைச் செய்யுங்கள்:
- Chunking-ஐ benchmark செய்யுங்கள். மூன்று வெவ்வேறு அளவுகளைச் சோதித்துப் பாருங்கள். top-1 மற்றும் top-5 அளவில் துல்லியத்தை (precision) அளவிடுங்கள்.
- உண்மையான தரவைக் கொண்டு embeddings-ஐச் சோதியுங்கள். செயற்கையான (synthetic) சோதனைகளைப் பயன்படுத்த வேண்டாம். உங்கள் உண்மையான பயனர் வினவல்களைப் (user queries) பயன்படுத்துங்கள்.
- தோல்விகளைப் பதிவு செய்யுங்கள் (Log failures). இரண்டு வாரங்களுக்கு, தோல்வியடையும் ஒவ்வொரு வினவலையும் பதிவு செய்யுங்கள். உங்கள் தேடல் எதைத் தவறவிடுகிறது என்பதில் உள்ள முறைகளைக் (patterns) கவனியுங்கள்.
- ஒருமுறை BM25-ஐச் செயல்படுத்திப் பாருங்கள். நீங்கள் பின்னர் ஒரு library-யைப் பயன்படுத்தினாலும், keyword baseline-ஐப் புரிந்து கொள்ள வேண்டியது அவசியம்.
நூலகங்கள் (Libraries) உங்களுக்கு நேரத்தை மிச்சப்படுத்தும். புரிதல் உங்களுக்கு நம்பகத்தன்மையைத் தரும்.
Optional learning community: https://t.me/GyaanSetuAi