कुछ भी न समझने से लेकर एक RAG App बनाने तक

मैंने कल अपने NLP नोट्स के 31 पन्ने पढ़ने में पूरा दिन बिताया।

मुझे कुछ भी समझ नहीं आया।

मुझे लगा कि समस्या मुझमें है। लेकिन ऐसा नहीं था। समस्या मेरे तरीके में थी। नोट्स पढ़ना सीखना नहीं है। मेरे पास जो नोट्स थे वे किसी विशेषज्ञ के लिए थे, किसी शुरुआती (beginner) के लिए नहीं।

मैंने अपना दृष्टिकोण बदला। मैंने पढ़ना बंद कर दिया। इसके बजाय, मैंने सवाल पूछना शुरू किया। मैंने सरल उदाहरणों का उपयोग किया। जब तक मुझे कोई कॉन्सेप्ट समझ नहीं आ गया, तब तक मैंने तकनीकी शब्दों का उपयोग करने से मना कर दिया।

दिन के अंत तक, मैंने एक RAG app बना लिया। यहाँ बताया गया है कि मैंने NLP के चार स्तंभों (pillars) को कैसे सीखा।

  1. Bag of Words कंप्यूटर केवल गणित समझते हैं। टेक्स्ट को प्रोसेस करने के लिए, आपको शब्दों को नंबरों में बदलना होगा।

कल्पना कीजिए कि आप ईमेल को स्पैम या नॉन-स्पैम में वर्गीकृत (sort) करना चाहते हैं। आप अपने ईमेल के हर शब्द की एक सूची बनाते हैं। आप गिनते हैं कि प्रत्येक शब्द कितनी बार आता है। यह एक ईमेल को नंबरों की एक पंक्ति (row) में बदल देता है।

इसकी कमी क्या है? यह शब्दों के क्रम (order) को नज़रअंदाज़ कर देता है। इस तरीके के लिए "Dog bites man" और "man bites dog" बिल्कुल एक जैसे दिखते हैं।

  1. TF-IDF Bag of Words हर शब्द के साथ एक जैसा व्यवहार करता है। लेकिन "the" उतना महत्वपूर्ण नहीं है जितना कि "viagra"।

TF-IDF दो नियमों का उपयोग करता है:

यह गणित "the" जैसे फिलर शब्दों के प्रभाव को कम कर देता है और महत्वपूर्ण, दुर्लभ शब्दों को उभारता है।

  1. Embeddings Bag of Words को लगता है कि "money" और "cash" का आपस में कोई संबंध नहीं है। Embeddings इसे ठीक कर देते हैं।

एक विशाल मानचित्र (map) के बारे में सोचें। उस मानचित्र पर हर शब्द एक बिंदु (dot) है। समान अर्थ वाले शब्द एक-दूसरे के करीब होते हैं। "Money" और "cash" पड़ोसी हैं। "Banana" बहुत दूर है।

कंप्यूटर शब्दों के साथ आने वाले अन्य शब्दों को देखकर इन स्थानों को सीखता है। यदि "money" और "cash" दोनों "bank" और "pay" के पास आते हैं, तो कंप्यूटर उन्हें एक-दूसरे के पास रख देता है।

  1. RAG (Retrieval-Augmented Generation) यहीं पर यह सब एक साथ आता है।

यदि आपकी फाइलों का प्रत्येक नोट मानचित्र पर एक बिंदु है, तो आप निकटतम बिंदुओं को खोजकर उत्तर पा सकते हैं।

RAG प्रक्रिया:

यह AI को अनुमान लगाने या झूठ बोलने से रोकता है। यह AI को आपके वास्तविक डेटा का उपयोग करने के लिए मजबूर करता है।

मैंने इन चरणों का उपयोग करके अपना ऐप, Synapse, बनाया। मैं एक दिन में शून्य से एक कामकाजी सिस्टम तक पहुँच गया।

सबक: पढ़ना बंद करें। पूछना शुरू करें। यदि आप किसी अवधारणा को एक सरल उपमा के साथ नहीं समझा सकते, तो इसका मतलब है कि आप उसे अभी तक नहीं जानते हैं। यह साबित करने के लिए कि आप समझते हैं, कुछ बनाएं।

स्रोत: https://dev.to/sabimantock/from-i-understood-nothing-to-building-a-rag-app-4033

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi