ایمبیڈنگز کا جادو (Embeddings Magic)

ایمبیڈنگز زبان کو ریاضی میں تبدیل کر دیتی ہیں۔

یہ جدید AI کی بنیاد ہیں۔ بہت سے لوگ انہیں ایک 'بلیک باکس' (black box) کی طرح سمجھتے ہیں۔ یہ پوسٹ وضاحت کرتی ہے کہ یہ کیسے کام کرتی ہیں۔

جب الفاظ آپس میں میل نہ کھائیں تو کی ورڈ سرچ (Keyword search) ناکام ہو جاتی ہے۔

اگر آپ "How do I reset my password?" تلاش کریں، تو کی ورڈ سرچ بالکل انہی الفاظ کو ڈھونڈتی ہے۔ اگر کوئی دستاویز کہتی ہے "Steps to recover your account credentials"، تو سرچ ناکام ہو سکتی ہے۔ آپ جانتے ہیں کہ مطلب ایک ہی ہے، لیکن کمپیوٹر نہیں جانتے۔

ایمبیڈنگز اس مسئلے کو حل کرتی ہیں۔

ایک ایمبیڈنگ نمبروں کی ایک فہرست ہوتی ہے۔ یہ نمبر متن کے معنی کی نمائندگی کرتے ہیں۔ ایک ایمبیڈنگ ماڈل الفاظ کو ایک ہائی ڈائمینشنل اسپیس (high dimensional space) میں نقش کرتا ہے۔

ایک لفظ جیسے "cat" ایک ویکٹر (vector) بن جاتا ہے: [0.18, -0.42, 0.91, ...]

صرف نمبروں کا کوئی مطلب نہیں ہوتا۔ اصل چیز ویکٹر کی پوزیشن ہے۔

ایک نقشے کے بارے میں سوچیں۔ ایک دوسرے کے قریب واقع شہروں کی آب و ہوا اور سرحدیں ملتی جلتی ہوتی ہیں۔ ایمبیڈنگز بھی اسی طرح کام کرتی ہیں۔ ایک جیسے معنی رکھنے والا متن ویکٹر اسپیس میں ایک دوسرے کے قریب ہوتا ہے۔

  • کتا (Dog) اور بلی (Cat) ایک دوسرے کے قریب ہوتے ہیں۔
  • کار (Car) اور ٹرک (Truck) ایک دوسرے کے قریب ہوتے ہیں۔
  • کار (Car) اور کتا (Dog) ایک دوسرے سے دور ہوتے ہیں۔

ان پوائنٹس کے درمیان کا فاصلہ مماثلت (similarity) کو ظاہر کرتا ہے۔

یہ سیمنٹک سرچ (semantic search) کی اجازت دیتا ہے۔ آپ ہجے (spelling) کے بجائے مقصد (intent) کی بنیاد پر معلومات تلاش کر سکتے ہیں۔

ان ویکٹرز کا موازنہ کرنے کے لیے، ہم cosine similarity کا استعمال کرتے ہیں۔ یہ میٹرک دو ویکٹرز کے درمیان زاویے کی پیمائش کرتا ہے۔

  • چھوٹا زاویہ زیادہ مماثلت کو ظاہر کرتا ہے۔
  • بڑا زاویہ کم مماثلت کو ظاہر کرتا ہے۔

ایمبیڈنگز Retrieval Augmented Generation (RAG) کو بھی طاقت فراہم کرتی ہیں۔ ایک RAG پائپ لائن میں، عمل کچھ اس طرح ہوتا ہے:

  1. ایمبیڈنگ ماڈل کا استعمال کرتے ہوئے دستاویزات کو ویکٹرز میں تبدیل کریں۔
  2. ویکٹرز کو ایک ویکٹر ڈیٹا بیس میں محفوظ کریں۔
  3. صارف کی مطلوبہ معلومات (query) کو ویکٹر میں تبدیل کریں۔
  4. ڈیٹا بیس میں قریب ترین ویکٹرز تلاش کریں۔
  5. متعلقہ دستاویزات LLM کو بھیجیں۔

LLM براہ راست آپ کی فائلوں کو تلاش نہیں کرتا۔ یہ قریب ترین مماثلت کے لیے ایمبیڈنگ اسپیس میں تلاش کرتا ہے۔

اگر آپ AI ایپلی کیشنز بناتے ہیں، تو آپ کے لیے ایمبیڈنگز کو سمجھنا ضروری ہے۔ یہ سرچ انجن سے لے کر ری کمنڈیشن سسٹم (recommendation systems) تک ہر چیز کو طاقت فراہم کرتے ہیں۔ ان کی طاقت اس بات میں ہے کہ وہ معنی کو کس طرح ترتیب دیتے ہیں۔

Source: https://dev.to/tahaboussaden/embeddings-magic-2hlb

Optional learning community: https://t.me/GyaanSetuAi