بازیابی بردار دامنه-محور: از مدل‌ها تا اعتبارسنجی دوگانه

مدل‌های جاسازی (embedding) عمومی اغلب در مواجهه با متن‌های تخصصی شکست می‌خورند.

در پروژه اخیرم در زمینه ESG، استفاده از مدل ada-002 شرکت OpenAI منجر به دو مشکل بزرگ شد:

  • ۱۸٪ از محتوای مرتبط هرگز پیدا نشد.
  • ۱۲٪ از نتایج اشتباه بودند. برای مثال، جستجو برای "Scope 1 emissions" منجر به بازگشت "Scope 3 emissions" شد.

مشکل از آستانه شباهت (similarity threshold) نبود؛ بلکه مشکل «انحراف معنایی» (semantic drift) بود. مدل‌های عمومی تفاوت‌های ظریف در حوزه‌های تخصصی مانند ESG، حقوقی یا متون پزشکی را درک نمی‌کنند.

در اینجا راهکار سه لایه برای رفع این مشکل آورده شده است.

۱. انتخاب مدل ما چهار مدل را آزمایش کردیم. اگرچه میزبانی داخلی (self-hosting) مدل BGE-M3 ارزان‌تر به نظر می‌رسد، اما در واقع به دلیل هزینه‌های سرور GPU و زمان توسعه، ۶ برابر بیشتر هزینه داشت.

ما مدل text-embedding-3-large را انتخاب کردیم زیرا:

  • ۹۱٪ فراخوانی (recall) داشت.
  • در مواجهه با متن‌های طولانی پایدار می‌ماند.
  • بهترین نرخ بازگشت سرمایه (ROI) را ارائه می‌دهد.

۲. کاهش انحراف معنایی حتی بهترین مدل‌ها نیز "low-carbon" را با "zero-carbon" اشتباه می‌گیرند. من یک استراتژی تقویت (augmentation) سه مرحله‌ای را پیاده‌سازی کردم:

  • فرهنگ لغت دامنه: نقشه‌ای از بیش از ۵۰۰ اصطلاح همراه با تعاریف و قوانین «تمایز از».
  • راهنمایی‌های پرامپت: تزریق بافت (context) فرهنگ لغت به مدل در حین کدگذاری (encoding).
  • رتبه‌بندی مجدد پس از بازیابی: افزایش امتیاز برای مترادف‌ها و کاهش امتیاز برای اصطلاحات نامرتبط.

این کار نرخ مثبت کاذب (false positive) ما را از ۱۲٪ به ۳٪ کاهش داد.

۳. اعتبارسنجی دوگانه شباهت برداری فاصله ریاضی را اندازه‌گیری می‌کند، نه ارتباط تجاری را. برای اطمینان از دقت، یک سیستم بررسی دوگانه اضافه کردم:

  • لایه ۱: تطبیق سخت کلمات کلیدی. نتیجه باید شامل اصطلاحات اصلی مورد نیاز باشد.
  • لایه ۲: اعتبارسنجی متقاطع معنایی توسط LLM. یک LLM بررسی می‌کند که آیا آن قطعه متن (chunk) واقعاً به پرسش پاسخ می‌دهد یا خیر.
  • لایه ۳: بررسی‌های موردی دستی. بازبینی‌های ماهانه برای جلوگیری از افت کیفیت سیستم.

این کار دقت را از ۷۰٪ به ۹۴٪ بهبود بخشید.

نتیجه‌گیری اگر داده‌های شما از اصطلاحات تخصصی استفاده می‌کنند، تنها به یک جستجوی برداری تکیه نکنید. برای عبور از شباهت ریاضی به سمت ارتباط تجاری، به یک فرهنگ لغت، راهنمایی‌های دامنه و یک لایه اعتبارسنجی دوگانه نیاز دارید.

منبع: https://dev.to/jamesli/part-3-vector-retrieval-in-domain-specific-terminology-scenarios-from-model-selection-to-dual-3485

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi