گوگل دیپمایند از صندوق ۱۰ میلیون دلاری برای حل ریسکهای ایمنی هوش مصنوعی چندعاملی حمایت میکند
با تکامل عاملهای هوش مصنوعی از چتباتهای ساده به موجودیتهای خودمختاری که قادر به انجام وظایف پیچیده هستند، مرز جدیدی از ریسکهای سیستماتیک در حال ظهور است. گوگل دیپمایند و چندین شریک جهانی، ابتکار عمل گستردهای را برای مطالعه رفتارهای غیرقابل پیشبینی که در اثر تعامل میلیونها عامل خودمختار در دنیای واقعی رخ میدهند، آغاز کردهاند.
مسئله چندعاملی: فراتر از ایمنی مدلهای انفرادی
در بخش بزرگی از عصر فعلی هوش مصنوعی، تحقیقات بر ایمنی مدلهای تکگانه متمرکز بوده است؛ یعنی اطمینان از اینکه یک مدل زبانی بزرگ (LLM) خاص، محتوای سمی تولید نکند یا از دستورات مخرب پیروی نکند. با این حال، گوگل دیپمایند و شرکای آن تشخیص دادهاند که چالش واقعی در «سیستمهای چندعاملی» نهفته است.
هنگامی که تعداد زیادی از عاملها در سطح اقتصاد مستقر میشوند، اکوسیستم پیچیدهای ایجاد میکنند که در آن رفتار جمعی میتواند به طرز رادیکالی با مجموع اجزای آن متفاوت باشد. این «ذهن جمعی عاملها» (agent hive mind) میتواند پتانسیل منجر شدن به هوش نوظهور یا، به شکلی نگرانکنندهتر، آشوب نوظهور را داشته باشد. کارشناسان هشدار میدهند که ما نمیتوانیم این نتایج را تنها با مطالعه مدلهای ایزوله پیشبینی کنیم؛ در عوض، پژوهشگران باید از شبیهسازیهای واقعگرایانه و در مقیاس بزرگ استفاده کنند تا مشاهده کنند که عاملها چگونه در محیطهای آزمایشی دیجیتال (digital sandboxes) با هم تعامل، رقابت یا بهطور ناخواسته همکاری میکنند.
ائتلافی ۱۰ میلیون دلاری برای تحقیقات دانشگاهی
برای پر کردن این شکاف، گوگل دیپمایند ائتلاف قدرتمندی را گرد هم آورده است تا ۱۰ میلیون دلار بودجه برای پژوهشگران فراهم کند. این مشارکت شامل Schmidt Sciences (یک بنیاد خیریه به رهبری Eric و Wendy Schmidt)، ARIA (آژانس پروژههای بلندپروازانه دولت بریتانیا)، بنیاد Cooperative AI و Google.org است.
هدف استراتژیک این است که تحقیقات از دیوارهای آزمایشگاههای بزرگ فناوری خارج شده و به محیطهای دانشگاهی منتقل شوند. در حالی که رهبران صنعت مانند Google و Anthropic در حال ساخت این فناوری هستند، پژوهشگران دانشگاهی این آزادی را دارند که به آینده دورتر نگاه کنند و ریسکهای سیستماتیک بلندمدتی را بررسی کنند که ممکن است اولویتهای فوری در چرخههای محصولات تجاری نباشند. هدف این بودجه، ایجاد حوزه بنیادی «ایمنی چندعاملی» است که در حال حاضر وجود خارجی ندارد.
از تزریق دستور (Prompt Injection) تا آنارشی دیجیتال
ریسکهای مرتبط با سیستمهای چندعاملی صرفاً تئوری نیستند؛ آنها نسخههای تقویتشدهای از تهدیدات امنیت سایبری موجود هستند. نگرانیهای کلیدی عبارتند از:
- تزریقهای پیشرفته دستور (Prompt Injections): یک عامل ممکن است توسط یک جمله مخرب که در میان یک سند پنهان شده، «ربوده» شود و یک دستیار مفید را به یک بدافزار خودگردان تبدیل کند.
- کلاهبرداریها و حملات سایبری خودکار: عاملهای دارای قابلیت استدلال و بداههپردازی میتوانند حملات پیچیده و چندمرحلهای مهندسی اجتماعی یا هک را در مقیاس وسیع اجرا کنند.
- بیثباتی سیستماتیک: درست همانطور که نهادهای انسانی میتوانند باعث تغییرات اقتصادی پیشبینینشده شوند، استقرار گسترده عاملهای خودمختار میتواند منجر به «آنارشی» دیجیتال یا بیثباتی بازار شود.
برخلاف نرمافزارهای سنتی که از مسیرهای ثابت نوشتهشده توسط انسانها پیروی میکنند، عاملهای هوش مصنوعی استدلال کرده و بداههپردازی میکنند. این پیشبینیناپذیری، تغییر به سمت چارچوبهای «اعتماد صفر» (zero trust) را ضروری میسازد — رویکردی که توسط Anthropic ترویج میشود — که در آن با هر عامل به عنوان یک آسیبپذیری بالقوه برخورد میشود.
نکات کلیدی
- ابتکار جدید تأمین مالی: Google DeepMind و شرکای آن ۱۰ میلیون دلار برای تأمین مالی تحقیقات دانشگاهی در زمینه رفتارهای پیشبینیناپذیر عاملهای هوش مصنوعی در حال تعامل، اختصاص دادهاند.
- ریسکهای نوظهور: نگرانی اصلی این است که میلیونها عامل خودمختار میتوانند ریسکهای سیستماتیکی مانند حملات سایبری خودکار و رفتارهای «ذهن کندویی» (hive mind) ایجاد کنند که با آزمایش مدلهای تکگانه قابل پیشبینی نیستند.
- تغییر در پارادایمهای امنیتی: با گذار عاملها از نرمافزارهای ثابت به سمت موجودیتهای استدلالگر، صنعت در حال تغییر به سمت مدلهای «اعتماد صفر» برای کاهش ریسکهای ربوده شدن و تزریق دستور (prompt injection) است.