कुछ भी न समझने से लेकर एक RAG ऐप बनाने तक

📅4 hours ago⏱2 min read

कुछ भी न समझने से लेकर एक RAG App बनाने तक

मैंने कल अपने NLP नोट्स के 31 पन्ने पढ़ने में पूरा दिन बिताया।

मुझे कुछ भी समझ नहीं आया।

मुझे लगा कि समस्या मुझमें है। लेकिन ऐसा नहीं था। समस्या मेरे तरीके में थी। नोट्स पढ़ना सीखना नहीं है। मेरे पास जो नोट्स थे वे किसी विशेषज्ञ के लिए थे, किसी शुरुआती (beginner) के लिए नहीं।

मैंने अपना दृष्टिकोण बदला। मैंने पढ़ना बंद कर दिया। इसके बजाय, मैंने सवाल पूछना शुरू किया। मैंने सरल उदाहरणों का उपयोग किया। जब तक मुझे कोई कॉन्सेप्ट समझ नहीं आ गया, तब तक मैंने तकनीकी शब्दों का उपयोग करने से मना कर दिया।

दिन के अंत तक, मैंने एक RAG app बना लिया। यहाँ बताया गया है कि मैंने NLP के चार स्तंभों (pillars) को कैसे सीखा।

Bag of Words कंप्यूटर केवल गणित समझते हैं। टेक्स्ट को प्रोसेस करने के लिए, आपको शब्दों को नंबरों में बदलना होगा।

कल्पना कीजिए कि आप ईमेल को स्पैम या नॉन-स्पैम में वर्गीकृत (sort) करना चाहते हैं। आप अपने ईमेल के हर शब्द की एक सूची बनाते हैं। आप गिनते हैं कि प्रत्येक शब्द कितनी बार आता है। यह एक ईमेल को नंबरों की एक पंक्ति (row) में बदल देता है।

इसकी कमी क्या है? यह शब्दों के क्रम (order) को नज़रअंदाज़ कर देता है। इस तरीके के लिए "Dog bites man" और "man bites dog" बिल्कुल एक जैसे दिखते हैं।

TF-IDF Bag of Words हर शब्द के साथ एक जैसा व्यवहार करता है। लेकिन "the" उतना महत्वपूर्ण नहीं है जितना कि "viagra"।

TF-IDF दो नियमों का उपयोग करता है:

Term Frequency (TF): एक ईमेल में कोई शब्द कितनी बार आता है।
Inverse Document Frequency (IDF): सभी ईमेल में कोई शब्द कितना दुर्लभ (rare) है।

यह गणित "the" जैसे फिलर शब्दों के प्रभाव को कम कर देता है और महत्वपूर्ण, दुर्लभ शब्दों को उभारता है।

Embeddings Bag of Words को लगता है कि "money" और "cash" का आपस में कोई संबंध नहीं है। Embeddings इसे ठीक कर देते हैं।

एक विशाल मानचित्र (map) के बारे में सोचें। उस मानचित्र पर हर शब्द एक बिंदु (dot) है। समान अर्थ वाले शब्द एक-दूसरे के करीब होते हैं। "Money" और "cash" पड़ोसी हैं। "Banana" बहुत दूर है।

कंप्यूटर शब्दों के साथ आने वाले अन्य शब्दों को देखकर इन स्थानों को सीखता है। यदि "money" और "cash" दोनों "bank" और "pay" के पास आते हैं, तो कंप्यूटर उन्हें एक-दूसरे के पास रख देता है।

RAG (Retrieval-Augmented Generation) यहीं पर यह सब एक साथ आता है।

यदि आपकी फाइलों का प्रत्येक नोट मानचित्र पर एक बिंदु है, तो आप निकटतम बिंदुओं को खोजकर उत्तर पा सकते हैं।

RAG प्रक्रिया:

एक प्रश्न को बिंदु में बदलें।
मानचित्र पर निकटतम नोट-बिंदुओं को खोजें।
उन नोट्स को AI को दें।
AI को केवल उन्हीं नोट्स का उपयोग करके उत्तर देने के लिए कहें।

यह AI को अनुमान लगाने या झूठ बोलने से रोकता है। यह AI को आपके वास्तविक डेटा का उपयोग करने के लिए मजबूर करता है।

मैंने इन चरणों का उपयोग करके अपना ऐप, Synapse, बनाया। मैं एक दिन में शून्य से एक कामकाजी सिस्टम तक पहुँच गया।

सबक: पढ़ना बंद करें। पूछना शुरू करें। यदि आप किसी अवधारणा को एक सरल उपमा के साथ नहीं समझा सकते, तो इसका मतलब है कि आप उसे अभी तक नहीं जानते हैं। यह साबित करने के लिए कि आप समझते हैं, कुछ बनाएं।

स्रोत: https://dev.to/sabimantock/from-i-understood-nothing-to-building-a-rag-app-4033

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi

कुछ भी न समझने से लेकर एक RAG ऐप बनाने तक

Continue reading

𝗢𝗻𝗲 𝗪𝗵𝗶𝗹𝗲 𝗟𝗼𝗼𝗽, 𝗦𝗲𝘃𝗲𝗻 𝗣𝗮𝘁𝘁𝗲𝗿𝗻𝘀, 𝗘𝗻𝗱𝗹𝗲𝘀𝘀 𝗟𝗲𝗮𝗿𝗻𝗶𝗻𝗴

𝗜 𝗪𝗼𝗿𝗸 𝗶𝗻 𝗛𝗲𝗮𝗹𝘁𝗵𝗰𝗮𝗿𝗲 𝗧𝗲𝗰𝗵. 𝗛𝗲𝗿𝗲'𝘀 𝗪𝗵𝘆 𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗥𝗔𝗚 𝗧𝗼𝗼𝗹 𝗳𝗼𝗿 𝗖𝗹𝗶𝗻𝗶𝗰���

𝟱 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗠𝗶𝘀𝘁𝗮𝗸𝗲𝘀 𝗜 𝗠𝗮𝗱𝗲 𝗔𝘀 𝗔 𝗗𝗲𝘃𝗲𝗹𝗼𝗽𝗲𝗿

मैं ऐसी AI उपयोग नीतियां कैसे बनाता हूँ जिनका लोग वास्तव में पालन करते हैं

मैंने अपना खुद का AI एजेंट बनाया। यहाँ वह बातें हैं जो कोई आपको नहीं बताता।

𝗜 𝗪𝗼𝗿𝗸 𝗶𝗻 𝗛𝗲𝗮𝗹𝘁𝗵𝗰𝗮𝗿𝗲 𝗧𝗲𝗰𝗵. 𝗛𝗲𝗿𝗲'𝘀 𝗪𝗵𝘆 𝗜 𝗕𝘂𝗶𝗹𝘁 𝗮 𝗥𝗔𝗚 𝗧𝗼𝗼𝗹 𝗳𝗼𝗿 𝗖𝗹𝗶𝗻𝗶𝗰��