एम्बेडिंग्स का जादू

एम्बेडिंग्स भाषा को गणित में बदल देते हैं।

ये आधुनिक AI का आधार हैं। कई लोग इन्हें एक 'ब्लैक बॉक्स' की तरह मानते हैं। यह पोस्ट बताती है कि ये कैसे काम करते हैं।

जब शब्द मेल नहीं खाते, तो कीवर्ड सर्च विफल हो जाता है।

यदि आप "How do I reset my password?" खोजते हैं, तो कीवर्ड सर्च ठीक उन्हीं शब्दों को ढूँढता है। यदि कोई दस्तावेज़ "Steps to recover your account credentials" कहता है, तो सर्च विफल हो सकता है। आप जानते हैं कि अर्थ एक ही है, लेकिन कंप्यूटर नहीं जानते।

एम्बेडिंग्स इस समस्या का समाधान करते हैं।

एक एम्बेडिंग नंबरों की एक सूची होती है। ये नंबर टेक्स्ट के अर्थ को दर्शाते हैं। एक एम्बेडिंग मॉडल शब्दों को एक हाई-डायमेंशनल स्पेस (high dimensional space) में मैप करता है।

"cat" जैसा एक अकेला शब्द एक वेक्टर बन जाता है: [0.18, -0.42, 0.91, ...]

केवल नंबरों का कोई अर्थ नहीं है। जो मायने रखता है, वह है वेक्टर की स्थिति।

एक मानचित्र (map) के बारे में सोचें। एक-दूसरे के पास स्थित शहरों की जलवायु और सीमाएँ समान होती हैं। एम्बेडिंग्स भी इसी तरह काम करते हैं। समान अर्थ वाले टेक्स्ट वेक्टर स्पेस में एक-दूसरे के करीब होते हैं।

  • कुत्ता (Dog) और बिल्ली (Cat) एक-दूसरे के करीब होते हैं।
  • कार (Car) और ट्रक (Truck) एक-दूसरे के करीब होते हैं।
  • कार (Car) और कुत्ता (Dog) एक-दूसरे से दूर होते हैं।

इन बिंदुओं के बीच की दूरी समानता को दर्शाती है।

यह सिमेंटिक सर्च (semantic search) की अनुमति देता है। आप स्पेलिंग के बजाय इरादे (intent) के आधार पर जानकारी खोज सकते हैं।

इन वेक्टर्स की तुलना करने के लिए, हम कोसाइन सिमिलरिटी (cosine similarity) का उपयोग करते हैं। यह मेट्रिक दो वेक्टर्स के बीच के कोण को मापता है।

  • छोटा कोण अधिक समानता का संकेत देता है।
  • बड़ा कोण कम समानता का संकेत देता है।

एम्बेडिंग्स Retrieval Augmented Generation (RAG) को भी शक्ति प्रदान करते हैं। एक RAG पाइपलाइन में, प्रक्रिया इस प्रकार होती है:

  1. एम्बेडिंग मॉडल का उपयोग करके दस्तावेज़ों को वेक्टर्स में बदलें।
  2. वेक्टर्स को वेक्टर डेटाबेस में स्टोर करें।
  3. यूजर क्वेरी को एक वेक्टर में बदलें।
  4. डेटाबेस में सबसे करीबी वेक्टर्स खोजें।
  5. प्रासंगिक दस्तावेज़ों को LLM को भेजें।

LLM सीधे आपकी फ़ाइलों को नहीं खोजता है। यह सबसे करीबी मिलान के लिए एम्बेडिंग स्पेस में खोज करता है।

यदि आप AI एप्लिकेशन बनाते हैं, तो आपको एम्बेडिंग्स को समझना चाहिए। ये सर्च इंजन से लेकर रिकमेंडेशन सिस्टम तक सब कुछ संचालित करते हैं। इनकी ताकत इस बात में है कि वे अर्थ को कैसे व्यवस्थित करते हैं।

Source: https://dev.to/tahaboussaden/embeddings-magic-2hlb

Optional learning community: https://t.me/GyaanSetuAi