چگونه از برچسب‌گذاری اشتباه استنتاج به عنوان واقعیت توسط هوش مصنوعی جلوگیری کنیم

عوامل پژوهشی هوش مصنوعی اغلب واقعیت‌ها را با حدس‌ها ترکیب می‌کنند. یک صفحه وب ممکن است یک ارزش بازار را بیان کند؛ سپس عامل نتیجه می‌گیرد که بازار با سرعت در حال رشد است. هر دو عبارت در متن نهایی یکسان به نظر می‌رسند. این ترکیب داده و نظر خطرناک است.

شما نمی‌توانید این مشکل را با پرامپت‌های بهتر حل کنید. پرامپت‌ها احتمالی هستند. تحت فشار، مدل حدس خواهد زد.

راه حل ساختاری است. تصمیم‌گیری را از LLM به کد خود منتقل کنید.

کار را به دو بخش تقسیم کنید:

وظایف LLM:

  • استخراج ادعاها از یک صفحه.
  • خلاصه‌سازی متن.

وظایف کد قطعی (Deterministic):

  • امتیازدهی به ادعاها.
  • بررسی متقاطع منابع.
  • برچسب‌گذاری ادعاها به عنوان FACT یا INFERENCE.
  • تصمیم‌گیری در مورد تازگی داده‌ها.

یک ادعا تنها زمانی برچسب FACT را دریافت می‌کند که قوانین سختگیرانه‌ای را رعایت کند. برای مثال، باید از دو منبع مستقل یا یک API رسمی استخراج شده باشد. هر چیز دیگری به INFERENCE تبدیل می‌شود.

از این خط لوله (pipeline) استفاده کنید:

  1. PLAN: تبدیل پرسش به زیرپرسش‌ها.
  2. HARVEST: دریافت داده‌ها از مسیرهای متعدد.
  3. NORMALIZE: استفاده از LLM برای استخراج ادعاهای ساختاریافته. این تنها مرحله‌ای است که از LLM استفاده می‌کند.
  4. CORROBORATE: گروه‌بندی ادعاها و شمارش منابع مستقل.
  5. SCORE: اعمال قوانین برای اختصاص برچسب‌ها.
  6. RENDER: نمایش واقعیت‌ها، استنتاج‌ها و اطلاعات مفقود شده.

استقلال کلید کار است. نقل قول یک وبلاگ از وبلاگ دیگر، دو منبع محسوب نمی‌شود. برای تأیید یک واقعیت، به دامنه‌های متمایز یا یک API رسمی نیاز دارید.

برای داشتن یک عامل قابل اعتماد، این قوانین را دنبال کنید:

  • استفاده از ارتقای سطح (escalation): ابتدا جستجوی وب را امتحان کنید. تنها در صورتی به موتور خبری یا جستجوی آکادمیک بروید که مرحله اول شکست بخورد.
  • پیگیری تازگی: داده‌های قدیمی را به عنوان منسوخ (stale) برچسب‌گذاری کنید. اجازه ندهید واقعیت‌های قدیمی به عنوان اطلاعات فعلی عبور کنند.
  • نمایش شکاف‌ها: آنچه را که نتوانستید پیدا کنید، لیست کنید. یک شکاف خاموش، یک شکست است.
  • تضمین بازتولیدپذیری: یک پرسش یکسان باید هر بار برچسب‌های یکسانی تولید کند. اگر برچسب‌ها تغییر می‌کنند، یعنی یک LLM در حال امتیازدهی به داده‌هاست. آن فراخوانی LLM را با یک تابع جایگزین کنید.

این روش به مدل اجازه می‌دهد کاری را که در آن بهترین است انجام دهد: خواندن و استخراج کردن. این کار از تصمیم‌گیری مدل در مورد اینکه چه چیزی درست است جلوگیری می‌کند.

Source: https://dev.to/hexisteme/how-to-make-an-ai-research-agent-label-facts-vs-inferences-a-deterministic-provenance-pipeline-5dfn

Optional learning community: https://t.me/GyaanSetuAi