سه کلمه
یک پژوهشگر سه کلمه را در قدرتمندترین مدل هوش مصنوعی Anthropic تایپ کرد: fix this code.
ظرف نود دقیقه، دولت ایالات متحده آن مدل را از دسترس خارج کرد.
آسیبپذیری یک پرامپت ساده بود؛ یک حمله پیچیده نبود. مدل دادههای امنیت سایبریای را ارائه داد که سیستمهای ایمنی آن باید مسدود میکردند.
وزارت بازرگانی از اختیارات کنترل صادرات برای متوقف کردن مدل استفاده کرد. آنها به Anthropic دستور دادند تا دسترسی تمام اتباع خارجی به مدل را ممنوع کند. این دستور شامل برخی از مهندسان خود Anthropic نیز میشد. Anthropic برای جلوگیری از حذف کارکنان خود، مدلها را از دسترس خارج کرد.
دلیل رسمی، امنیت ملی بود. اما این داستان لایههای عمیقتری دارد.
آمازون (Amazon) این دور زدن (bypass) را کشف کرد. اندی جاسی، مدیرعامل آمازون، موضوع را به مقامات دولتی اطلاع داد.
آمازون سرمایهگذار بزرگی در Anthropic است. آمازون همچنین زیرساخت ابری مورد استفاده Anthropic را فراهم میکند. از همه مهمتر، محصولات هوش مصنوعی خودِ آمازون با Anthropic رقابت میکنند.
این یافته از یک رقیب مستقیماً به دولت رسید و شرکت سازنده مدل را دور زد.
این اتفاق سه نکته حیاتی را نشان میدهد:
ریسک برند: Anthropic شهرت خود را بر پایه ایمنی بنا کرده است. وقتی یک مدل «ایمن» شکست میخورد، هزینه سیاسی آن بالاتر است. برند به یک نقطه ضعف تبدیل میشود.
ساختارهای قدرت جدید: آمازون هم به عنوان سرمایهگذار، هم تأمینکننده و هم رقیب عمل میکند. هیچ صنعت دیگری چنین ساختاری ندارد. یک تماس تلفنی از سوی یک رقیب میتواند ماشین حقوقی را برای تعطیلی یک شرکت به حرکت درآورد.
مداخله سریع: دولت ثابت کرد که میتواند یک شرکت هوش مصنوعی را مجبور کند تا محصول اصلی خود را در کمتر از دو ساعت از دسترس خارج کند. هیچ اخطار قبلی و هیچ فرآیند تجدیدنظری وجود نداشت.
شرکتهای هوش مصنوعی فکر میکردند یا خودشان را تنظیمگری میکنند یا با سیاستهای دولتی روبرو میشوند. آنها برای گزینه سوم برنامهریزی نکرده بودند.
آنها برای تنظیمگری از طریق مداخله ناگهانی که توسط اطلاعات تجاری تحریک شده باشد، برنامهریزی نکرده بودند.
پژوهشگران ایمنی خواهان نردههای حفاظتی (guardrails) برای هوش مصنوعی بودند. آنها متوجه نشدند که چه کسی در واقع آنها را خواهد ساخت.
منبع: https://dev.to/thesythesis/the-three-words-3ijl
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi