एम्बेडिंग्सची जादू

एम्बेडिंग्स भाषेचे रूपांतर गणितात करतात.

ते आधुनिक AI चा पाया आहेत. अनेक लोक त्यांना 'ब्लॅक बॉक्स' प्रमाणे मानतात. ही पोस्ट ते कसे कार्य करतात हे स्पष्ट करते.

जेव्हा शब्द जुळत नाहीत, तेव्हा कीवर्ड सर्च (Keyword search) अपयशी ठरते.

जर तुम्ही "How do I reset my password?" असे शोधले, तर कीवर्ड सर्च अगदी तेच शब्द शोधते. जर एखाद्या दस्तऐवजात "Steps to recover your account credentials" असे लिहिले असेल, तर शोध कदाचित अपयशी ठरेल. तुम्हाला माहित आहे की अर्थ तोच आहे, पण संगणकाला नाही.

एम्बेडिंग्स ही समस्या सोडवतात.

एम्बेडिंग म्हणजे संख्यांची एक यादी आहे. या संख्या मजकुराचा अर्थ दर्शवतात. एम्बेडिंग मॉडेल शब्दांना हाय-डायमेंशनल स्पेसमध्ये (high dimensional space) मॅप करते.

"cat" सारखा एक शब्द वेक्टर (vector) बनतो: [0.18, -0.42, 0.91, ...]

केवळ संख्यांचा काही अर्थ नसतो. महत्त्वाचे असते ते वेक्टरचे स्थान.

एका नकाशाचा विचार करा. एकमेकांच्या जवळ असलेली शहरे समान हवामान आणि सीमा सामायिक करतात. एम्बेडिंग्स देखील त्याच प्रकारे काम करतात. समान अर्थ असलेला मजकूर वेक्टर स्पेसमध्ये एकमेकांच्या जवळ असतो.

  • कुत्रा (Dog) आणि मांजर (Cat) एकमेकांच्या जवळ असतात.
  • कार (Car) आणि ट्रक (Truck) एकमेकांच्या जवळ असतात.
  • कार (Car) आणि कुत्रा (Dog) एकमेकांपासून दूर असतात.

या बिंदूंमधील अंतर साम्य दर्शवते.

यामुळे सिमेंटिक सर्च (semantic search) शक्य होते. तुम्ही स्पेलिंगऐवजी हेतूच्या (intent) आधारावर माहिती शोधू शकता.

या वेक्टर्सची तुलना करण्यासाठी, आपण कोसाइन सिमिलॅरिटी (cosine similarity) वापरतो. हे मेट्रिक दोन वेक्टर्समधील कोन मोजते.

  • लहान कोन म्हणजे उच्च साम्य.
  • मोठा कोन म्हणजे कमी साम्य.

एम्बेडिंग्स Retrieval Augmented Generation (RAG) ला देखील शक्ती देतात. RAG पाइपलाइनमध्ये, प्रक्रिया अशी दिसते:

  1. एम्बेडिंग मॉडेल वापरून दस्तऐवजांचे वेक्टर्समध्ये रूपांतर करा.
  2. वेक्टर्स वेक्टर डेटाबेसमध्ये साठवा.
  3. युजरच्या क्वेरीचे (user query) वेक्टरमध्ये रूपांतर करा.
  4. डेटाबेसमध्ये सर्वात जवळचे वेक्टर्स शोधा.
  5. संबंधित दस्तऐवज LLM कडे पाठवा.

LLM तुमच्या फाइल्स थेट शोधत नाही. ते जवळच्या मॅचेससाठी एम्बेडिंग स्पेस शोधते.

जर तुम्ही AI ॲप्लिकेशन्स बनवत असाल, तर तुम्हाला एम्बेडिंग्स समजून घेणे आवश्यक आहे. सर्च इंजिनपासून ते रेकमेंडेशन सिस्टमपर्यंत सर्व गोष्टींना ते शक्ती देतात. अर्थ कसा संघटित करायचा, यातच त्यांची ताकद आहे.

स्रोत: https://dev.to/tahaboussaden/embeddings-magic-2hlb

वैकल्पिक शिक्षण समुदाय: https://t.me/GyaanSetuAi