𝗗𝗼𝗺𝗮𝗶𝗻-𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗩𝗲𝗰𝘁𝗼𝗿 𝗥𝗲𝘁𝗿𝗶𝗲𝘃𝗮𝗹: 𝗠𝗼𝗱𝗲𝗹𝘀 𝘁𝗼 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻
عام مقصد کے ایمبیڈنگ ماڈلز اکثر مخصوص (specialized) متن پر ناکام ہو جاتے ہیں۔
میرے حالیہ ESG پروجیکٹ میں، OpenAI کے ada-002 ماڈل کے استعمال سے دو بڑے مسائل پیدا ہوئے:
- 18% متعلقہ مواد کبھی نہیں ملا۔
- 12% نتائج غلط تھے۔ مثال کے طور پر، "Scope 1 emissions" تلاش کرنے پر "Scope 3 emissions" سامنے آیا۔
مسئلہ similarity threshold کا نہیں تھا۔ بلکہ یہ semantic drift کا مسئلہ تھا۔ عام ماڈلز ESG، قانونی، یا طبی متن جیسے مخصوص شعبوں میں باریک فرق کو نہیں سمجھ پاتے۔
اسے حل کرنے کے لیے تین تہوں والا (three-layer) حل یہ ہے:
𝟭. 𝗠𝗼𝗱𝗲𝗹 𝗦𝗲𝗹𝗲𝗰𝘁𝗶𝗼𝗻 ہم نے چار ماڈلز کا تجربہ کیا۔ اگرچہ BGE-M3 کو خود ہوسٹ کرنا سستا لگتا ہے، لیکن GPU سرور کی لاگت اور ڈویلپمنٹ کے وقت کی وجہ سے اس پر اصل میں 6 گنا زیادہ خرچ آیا۔
ہم نے text-embedding-3-large کا انتخاب کیا کیونکہ:
- اس نے 91% recall حاصل کی۔
- یہ طویل متن کے ساتھ مستحکم رہتا ہے۔
- یہ بہترین ROI فراہم کرتا ہے۔
𝟮. 𝗦𝗲𝗺𝗮𝗻𝘁𝗶𝗰 𝗗𝗿𝗶𝗳𝘁 𝗠𝗶𝘁𝗶𝗴𝗮𝘁𝗶𝗼𝗻 بہترین ماڈلز بھی "low-carbon" کو "zero-carbon" کے ساتھ خلط ملط کر دیتے ہیں۔ میں نے تین مرحلہ وار augmentation حکمت عملی نافذ کی:
- ڈومین ڈکشنری (Domain Dictionary): 500 سے زائد اصطلاحات کا ایک نقشہ جس میں تعریفیں اور "distinct from" (اس سے مختلف) کے اصول شامل ہیں۔
- پرامپٹ ہنٹس (Prompt Hints): انکوڈنگ کے دوران ماڈل میں ڈکشنری کا سیاق و سباق شامل کرنا۔
- پوسٹ ریٹریول ری رینکنگ (Post-retrieval Reranking): مترادفات کے اسکورز کو بڑھانا اور غیر متعلقہ اصطلاحات کے اسکورز کو کم کرنا۔
اس سے ہماری false positive ریٹ 12% سے کم ہو کر 3% رہ گئی۔
𝟯. 𝗗𝘂𝗮𝗹 𝗩𝗮𝗹𝗶𝗱𝗮𝘁𝗶𝗼𝗻 ویکٹر similarity ریاضیاتی فاصلے کی پیمائش کرتی ہے، کاروباری اہمیت (business relevance) کی نہیں۔ درستگی کو یقینی بنانے کے لیے، میں نے ایک ڈوئل چیک سسٹم شامل کیا:
- لیئر 1: کی ورڈ ہارڈ میچ۔ نتیجہ لازمی طور پر بنیادی مطلوبہ اصطلاحات پر مشتمل ہونا چاہیے۔
- لیئر 2: LLM سیمنٹک کراس ویلیڈیشن۔ ایک LLM چیک کرتا ہے کہ آیا وہ حصہ (chunk) واقعی سوال کا جواب دے رہا ہے۔
- لیئر 3: دستی اسپاٹ چیکس۔ سسٹم کی کارکردگی میں کمی کو روکنے کے لیے ماہانہ جائزے (reviews)۔
اس سے درستگی 70% سے بڑھ کر 94% ہو گئی۔
𝗧𝗵𝗲 𝗧𝗮𝗸𝗲𝗮𝘄𝗮𝘆 اگر آپ کا ڈیٹا مخصوص اصطلاحات (jargon) استعمال کرتا ہے، تو صرف ایک ویکٹر سرچ پر بھروسہ نہ کریں۔ ریاضیاتی مماثلت سے کاروباری اہمیت تک پہنچنے کے لیے آپ کو ایک ڈکشنری، ڈومین ہنٹس اور ایک ڈوئل ویلیڈیشن لیئر کی ضرورت ہے۔
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi