چرا امتیاز اطمینان هوش مصنوعی شما دروغ می‌گوید

شما مدل خود را آموزش دادید. معیارها عالی به نظر می‌رسیدند. آن را مستقر کردید.

شش ماه بعد، مشکلی پیش می‌آید. داشبورد دقت شما خوب به نظر می‌رسد، اما مدل در حال شکست خوردن است.

این اتفاق به دلیل تغییر توزیع (distribution shift) رخ می‌دهد. داده‌ها در محیط عملیاتی با داده‌های آموزشی شما متفاوت هستند. این تغییر، کالیبراسیون (calibration) را از کار می‌اندازد.

اگر از معماری Mixture-of-Experts (MoE) استفاده می‌کنید، با ریسک خاصی روبرو هستید.

کالیبراسیون یعنی اگر مدلی بگوید ۸۰٪ مطمئن است، در ۸۰٪ مواقع درست می‌گوید. در مدل‌های MoE با مسیریابی نرم (soft routing)، این موضوع به صورت بی‌صدا از کار می‌افتد.

مسیریابی نرم، چندین متخصص (expert) را برای رسیدن به یک نتیجه با هم ترکیب می‌کند. حتی اگر هر متخصص کالیبره باشد، وقتی داده‌های ورودی تغییر می‌کنند، امتیاز ترکیبی غیرقابل اعتماد می‌شود. الگوهای مسیریابی متفاوتی ظاهر می‌شوند که مدل در طول آموزش ندیده است.

مسیریابی سخت (hard routing) مقاوم‌تر است. ورودی را فقط به یک متخصص می‌فرستد. اطمینان با همان متخصص خاص گره می‌خورد.

چگونه این مشکل را حل کنیم:

  • استفاده از وزن‌دهی خصمانه (Adversarial Reweighting): مدل خود را روی نمونه‌های سخت آموزش دهید. از یک شیب نمایی (exponential tilt) برای تأکید بر نمونه‌هایی با ضرر (loss) بالا در طول آموزش استفاده کنید.
  • استفاده از تابع زیان فیلترشده مقاوم (Robust Filtered Loss): آموزش را بر روی مواردی متمرکز کنید که ترکیب متخصصان عملکرد ضعیف‌تری نسبت به یک متخصص واحد دارد.

همین حالا چه کاری انجام دهید:

  • پایش خطای کالیبراسیون مورد انتظار (ECE): بررسی کنید که آیا امتیازهای اطمینان شما با دقت واقعی‌تان مطابقت دارد یا خیر.
  • رسم نمودارهای قابلیت اطمینان (Reliability Diagrams): منحنی‌هایی را که از خط قطری منحرف می‌شوند، زیر نظر بگیرید.
  • ردیابی رانش ورودی (Input Drift): از آزمون‌هایی مانند Kolmogorov-Smirnov استفاده کنید تا ببینید آیا داده‌های عملیاتی شما تغییر کرده‌اند یا خیر.
  • استفاده از مقیاس‌گذاری دما (Temperature Scaling): این یک وصله سریع برای اصلاح امتیازهای اطمینان پس از استقرار است، اگرچه یک راه حل دائمی نیست.

کالیبراسیون یک ویژگی سیستمی است. قطعات کالیبره شده همیشه یک کل کالیبره شده نمی‌سازند.

آیا در محیط عملیاتی با رانش کالیبراسیون (calibration drift) روبرو شده‌اید؟ تنظیمات پایش خود را در کامنت‌ها به من بگویید.

Source: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

Optional learning community: https://t.me/GyaanSetuAi