OpenAI شکست‌های مدل را با استفاده از چت‌های گذشته پیش‌بینی می‌کند

Translated for your language. Read the original.

AI-assisted draft.

دیروز1min read

OpenAI شکست‌های مدل را با استفاده از چت‌های گذشته پیش‌بینی می‌کند

OpenAI راهی برای پیش‌بینی زمان شکست یک مدل پیدا کرده است. آن‌ها این کار را با بازپخش (replay) چت‌های قدیمی کاربران انجام می‌دهند.

این روش الگوهای خطا را در لاگ‌های تاریخی پیدا می‌کند. این متد نیازی به داده‌های برچسب‌گذاری‌شده‌ی جدید ندارد، که باعث می‌شود تست‌های ایمنی سریع‌تر و ارزان‌تر انجام شوند.

نحوه عملکرد:

سیستم مکالمات واقعی گذشته را از طریق مدل بازپخش می‌کند.
به دنبال ردپای اشتباهات قبلی می‌گردد.
به دنبال سوءتفاهم‌های تکراری یا موارد خاص (edge cases) می‌گردد.
شناسایی می‌کند که مدل در کجا از پاسخ‌های صحیح منحرف می‌شود.

تست‌های سنتی اغلب خطاهای نادر را از دست می‌دهند. این رویکرد جدید از رفتار واقعی کاربران برای یافتن این شکاف‌ها استفاده می‌کند. این روش به جای ایجاد موارد تست ساختگی، بر داده‌های موجود تکیه دارد.

محدودیت‌های فعلی: OpenAI هنوز اعداد و ارقام دقیقی را منتشر نکرده است. ما از نرخ خطا یا امتیازهای بنچمارک (benchmark) اطلاعی نداریم. همچنین نمی‌دانیم که آیا این روش برای مدل‌های آینده مانند GPT-5 نیز کارآمد خواهد بود یا خیر.

آنچه باید دنبال کرد: منتظر یک گزارش فنی یا مقاله arXiv باشید. به دنبال همبستگی بین شکست‌های پیش‌بینی‌شده و خطاهای واقعی در زمان استقرار (deployment) باشید. این امر نشان خواهد داد که آیا این روش در مقیاس بزرگ کارایی دارد یا خیر.

منبع: https://dev.to/gentic_news/openai-can-predict-model-failures-via-past-chat-replay-2hej

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi

OpenAI شکست‌های مدل را با استفاده از چت‌های گذشته پیش‌بینی می‌کند

Continue reading

𝗣𝗿𝗲 𝗟𝗮𝘂𝗻𝗰𝗵 𝗔𝗜 𝗦𝗶𝗺𝘂𝗹𝗮𝘁𝗶𝗼𝗻𝘀 𝗔𝗿𝗲 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗠𝗼𝗱𝗲𝗹 𝗦𝗮𝗳𝗲𝘁𝘆 𝗖𝗵𝗲𝗰𝗸

شبیه‌سازی‌های هوش مصنوعی پیش از عرضه، معیار جدید بررسی ایمنی هستند

OpenAI Proposes Deployment Simulation to Predict AI Failures

𝗢𝗽𝗲𝗻𝗔𝗜 𝗣𝗿𝗲𝗱𝗶𝗰𝘁𝘀 𝗚𝗣𝗧 𝟱 𝗘𝗿𝗿𝗼𝗿𝘀 𝗪𝗶𝘁𝗵 𝟵𝟮% 𝗔𝗰𝗰𝘂𝗿𝗮𝗰𝘆

𝗖𝗵𝗮𝘁𝗚𝗣𝗧 𝟰 𝗜𝗻 𝗣𝗿𝗮𝗰𝘁𝗶𝗰𝗲