بازیابی بردار دامنه-محور: از مدلها تا اعتبارسنجی دوگانه
مدلهای جاسازی (embedding) عمومی اغلب در مواجهه با متنهای تخصصی شکست میخورند.
در پروژه اخیرم در زمینه ESG، استفاده از مدل ada-002 شرکت OpenAI منجر به دو مشکل بزرگ شد:
- ۱۸٪ از محتوای مرتبط هرگز پیدا نشد.
- ۱۲٪ از نتایج اشتباه بودند. برای مثال، جستجو برای "Scope 1 emissions" منجر به بازگشت "Scope 3 emissions" شد.
مشکل از آستانه شباهت (similarity threshold) نبود؛ بلکه مشکل «انحراف معنایی» (semantic drift) بود. مدلهای عمومی تفاوتهای ظریف در حوزههای تخصصی مانند ESG، حقوقی یا متون پزشکی را درک نمیکنند.
در اینجا راهکار سه لایه برای رفع این مشکل آورده شده است.
۱. انتخاب مدل ما چهار مدل را آزمایش کردیم. اگرچه میزبانی داخلی (self-hosting) مدل BGE-M3 ارزانتر به نظر میرسد، اما در واقع به دلیل هزینههای سرور GPU و زمان توسعه، ۶ برابر بیشتر هزینه داشت.
ما مدل text-embedding-3-large را انتخاب کردیم زیرا:
- ۹۱٪ فراخوانی (recall) داشت.
- در مواجهه با متنهای طولانی پایدار میماند.
- بهترین نرخ بازگشت سرمایه (ROI) را ارائه میدهد.
۲. کاهش انحراف معنایی حتی بهترین مدلها نیز "low-carbon" را با "zero-carbon" اشتباه میگیرند. من یک استراتژی تقویت (augmentation) سه مرحلهای را پیادهسازی کردم:
- فرهنگ لغت دامنه: نقشهای از بیش از ۵۰۰ اصطلاح همراه با تعاریف و قوانین «تمایز از».
- راهنماییهای پرامپت: تزریق بافت (context) فرهنگ لغت به مدل در حین کدگذاری (encoding).
- رتبهبندی مجدد پس از بازیابی: افزایش امتیاز برای مترادفها و کاهش امتیاز برای اصطلاحات نامرتبط.
این کار نرخ مثبت کاذب (false positive) ما را از ۱۲٪ به ۳٪ کاهش داد.
۳. اعتبارسنجی دوگانه شباهت برداری فاصله ریاضی را اندازهگیری میکند، نه ارتباط تجاری را. برای اطمینان از دقت، یک سیستم بررسی دوگانه اضافه کردم:
- لایه ۱: تطبیق سخت کلمات کلیدی. نتیجه باید شامل اصطلاحات اصلی مورد نیاز باشد.
- لایه ۲: اعتبارسنجی متقاطع معنایی توسط LLM. یک LLM بررسی میکند که آیا آن قطعه متن (chunk) واقعاً به پرسش پاسخ میدهد یا خیر.
- لایه ۳: بررسیهای موردی دستی. بازبینیهای ماهانه برای جلوگیری از افت کیفیت سیستم.
این کار دقت را از ۷۰٪ به ۹۴٪ بهبود بخشید.
نتیجهگیری اگر دادههای شما از اصطلاحات تخصصی استفاده میکنند، تنها به یک جستجوی برداری تکیه نکنید. برای عبور از شباهت ریاضی به سمت ارتباط تجاری، به یک فرهنگ لغت، راهنماییهای دامنه و یک لایه اعتبارسنجی دوگانه نیاز دارید.
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi