چرا امتیازهای اطمینان هوش مصنوعی شما دروغ می‌گویند؟

Translated for your language. Read the original.

AI-assisted draft.

دیروز1min read

چرا امتیاز اطمینان هوش مصنوعی شما دروغ می‌گوید

شما مدل خود را آموزش دادید. معیارها عالی به نظر می‌رسیدند. آن را مستقر کردید.

شش ماه بعد، مشکلی پیش می‌آید. داشبورد دقت شما خوب به نظر می‌رسد، اما مدل در حال شکست خوردن است.

این اتفاق به دلیل تغییر توزیع (distribution shift) رخ می‌دهد. داده‌ها در محیط عملیاتی با داده‌های آموزشی شما متفاوت هستند. این تغییر، کالیبراسیون (calibration) را از کار می‌اندازد.

اگر از معماری Mixture-of-Experts (MoE) استفاده می‌کنید، با ریسک خاصی روبرو هستید.

کالیبراسیون یعنی اگر مدلی بگوید ۸۰٪ مطمئن است، در ۸۰٪ مواقع درست می‌گوید. در مدل‌های MoE با مسیریابی نرم (soft routing)، این موضوع به صورت بی‌صدا از کار می‌افتد.

مسیریابی نرم، چندین متخصص (expert) را برای رسیدن به یک نتیجه با هم ترکیب می‌کند. حتی اگر هر متخصص کالیبره باشد، وقتی داده‌های ورودی تغییر می‌کنند، امتیاز ترکیبی غیرقابل اعتماد می‌شود. الگوهای مسیریابی متفاوتی ظاهر می‌شوند که مدل در طول آموزش ندیده است.

مسیریابی سخت (hard routing) مقاوم‌تر است. ورودی را فقط به یک متخصص می‌فرستد. اطمینان با همان متخصص خاص گره می‌خورد.

چگونه این مشکل را حل کنیم:

استفاده از وزن‌دهی خصمانه (Adversarial Reweighting): مدل خود را روی نمونه‌های سخت آموزش دهید. از یک شیب نمایی (exponential tilt) برای تأکید بر نمونه‌هایی با ضرر (loss) بالا در طول آموزش استفاده کنید.
استفاده از تابع زیان فیلترشده مقاوم (Robust Filtered Loss): آموزش را بر روی مواردی متمرکز کنید که ترکیب متخصصان عملکرد ضعیف‌تری نسبت به یک متخصص واحد دارد.

همین حالا چه کاری انجام دهید:

پایش خطای کالیبراسیون مورد انتظار (ECE): بررسی کنید که آیا امتیازهای اطمینان شما با دقت واقعی‌تان مطابقت دارد یا خیر.
رسم نمودارهای قابلیت اطمینان (Reliability Diagrams): منحنی‌هایی را که از خط قطری منحرف می‌شوند، زیر نظر بگیرید.
ردیابی رانش ورودی (Input Drift): از آزمون‌هایی مانند Kolmogorov-Smirnov استفاده کنید تا ببینید آیا داده‌های عملیاتی شما تغییر کرده‌اند یا خیر.
استفاده از مقیاس‌گذاری دما (Temperature Scaling): این یک وصله سریع برای اصلاح امتیازهای اطمینان پس از استقرار است، اگرچه یک راه حل دائمی نیست.

کالیبراسیون یک ویژگی سیستمی است. قطعات کالیبره شده همیشه یک کل کالیبره شده نمی‌سازند.

آیا در محیط عملیاتی با رانش کالیبراسیون (calibration drift) روبرو شده‌اید؟ تنظیمات پایش خود را در کامنت‌ها به من بگویید.

Source: https://dev.to/saeebarve/why-your-ai-models-confidence-score-is-probably-lying-and-what-to-do-about-it-1p1a

Optional learning community: https://t.me/GyaanSetuAi

چرا امتیازهای اطمینان هوش مصنوعی شما دروغ می‌گویند؟

Continue reading

جعل هم‌سویی در LLMها

𝗜𝗻𝗳𝗹𝗮𝘁𝗲𝗱 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲: 𝗛𝗼𝘄 𝗔𝗜 𝗖𝗿𝗲𝗮𝘁𝗲𝘀 𝗙𝗮𝗹𝘀𝗲 𝗖𝗼𝗻𝗳𝗶𝗱𝗲𝗻𝗰𝗲

چرا بازخورد ساختاریافته در آموزش هوش مصنوعی اهمیت دارد؟

شکست فناوری هوش مصنوعی در مرحله تولید: رفع شکاف هماهنگی هوش مصنوعی

آن نشانه‌ای که در فرآیند آموزش حذف کردیم