डोमेन-विशिष्ट वेक्टर रिट्रीवल: मॉडल्स से ड्यूल वैलिडेशन तक

आपकी भाषा के लिए अनुवादित. मूल पढ़ें.

AI-सहायता प्राप्त ड्राफ़्ट.

GyaanSetu Editorial4 दिन पहले2मिनट पढ़ें

डोमेन-विशिष्ट वेक्टर रिट्रीवल: मॉडल्स से लेकर ड्यूल वैलिडेशन तक

सामान्य उद्देश्य वाले एम्बेडिंग मॉडल्स अक्सर विशिष्ट (specialized) टेक्स्ट पर विफल हो जाते हैं।

मेरे हालिया ESG प्रोजेक्ट में, OpenAI के ada-002 मॉडल का उपयोग करने से दो बड़ी समस्याएँ आईं:

18% प्रासंगिक कंटेंट कभी नहीं मिला।
12% परिणाम गलत थे। उदाहरण के लिए, "Scope 1 emissions" खोजने पर "Scope 3 emissions" परिणाम में आया।

समस्या सिमिलैरिटी थ्रेशोल्ड (similarity threshold) की नहीं थी। यह सिमेंटिक ड्रिफ्ट (semantic drift) की समस्या थी। सामान्य मॉडल्स ESG, कानूनी या मेडिकल टेक्स्ट जैसे विशिष्ट डोमेन में सूक्ष्म अंतरों को नहीं समझ पाते हैं।

इसे ठीक करने के लिए यहाँ तीन-स्तरीय समाधान दिया गया है।

1. मॉडल सिलेक्शन हमने चार मॉडल्स का परीक्षण किया। हालांकि BGE-M3 को सेल्फ-होस्ट करना सस्ता लगता है, लेकिन GPU सर्वर लागत और डेवलपमेंट समय के कारण वास्तव में यह 6 गुना अधिक महंगा पड़ा।

हमने text-embedding-3-large को इसलिए चुना क्योंकि:

इसने 91% रिकॉल (recall) प्राप्त किया।
यह लंबे टेक्स्ट के साथ स्थिर रहता है।
यह सबसे अच्छा ROI प्रदान करता है।

2. सिमेंटिक ड्रिफ्ट मिटिगेशन बेहतरीन मॉडल्स भी "low-carbon" को "zero-carbon" समझकर भ्रमित हो जाते हैं। मैंने एक तीन-चरणीय ऑगमेंटेशन रणनीति लागू की:

डोमेन डिक्शनरी: परिभाषाओं और "distinct from" नियमों के साथ 500+ शब्दों का एक मैप।
प्रॉम्प्ट हिंट्स: एनकोडिंग के दौरान मॉडल में डिक्शनरी कॉन्टेक्स्ट डालना।
पोस्ट-रिट्रीवल रीरैंकिंग: पर्यायवाची शब्दों (synonyms) के स्कोर को बढ़ाना और असंबंधित शब्दों के स्कोर को कम करना।

इससे हमारी फॉल्स पॉजिटिव रेट (false positive rate) 12% से घटकर 3% हो गई।

3. ड्यूल वैलिडेशन वेक्टर सिमिलैरिटी गणितीय दूरी को मापती है, व्यावसायिक प्रासंगिकता (business relevance) को नहीं। सटीकता सुनिश्चित करने के लिए, मैंने एक ड्यूल-चेक सिस्टम जोड़ा:

लेयर 1: कीवर्ड हार्ड मैच। परिणाम में मुख्य आवश्यक शब्द होने चाहिए।
लेयर 2: LLM सिमेंटिक क्रॉस-वैलिडेशन। एक LLM यह जाँचता है कि क्या वह चंक (chunk) वास्तव में क्वेरी का उत्तर देता है।
लेयर 3: मैनुअल स्पॉट-चेक। सिस्टम के खराब होने (decay) को रोकने के लिए मासिक समीक्षा।

इससे सटीकता 70% से बढ़कर 94% हो गई।

मुख्य निष्कर्ष यदि आपके डेटा में विशिष्ट शब्दावली (specialized jargon) का उपयोग किया जाता है, तो केवल एक वेक्टर सर्च पर भरोसा न करें। गणितीय समानता से व्यावसायिक प्रासंगिकता की ओर बढ़ने के लिए आपको एक डिक्शनरी, डोमेन हिंट्स और एक ड्यूल-वैलिडेशन लेयर की आवश्यकता है।

स्रोत: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

डोमेन-विशिष्ट वेक्टर रिट्रीवल: मॉडल्स से ड्यूल वैलिडेशन तक

पढ़ना जारी रखें

Phase 1: Document Ingestion