گوگل دیپ‌مایند از صندوق ۱۰ میلیون دلاری برای حل ریسک‌های ایمنی هوش مصنوعی چندعاملی حمایت می‌کند

با تکامل عامل‌های هوش مصنوعی از چت‌بات‌های ساده به موجودیت‌های خودمختاری که قادر به انجام وظایف پیچیده هستند، مرز جدیدی از ریسک‌های سیستماتیک در حال ظهور است. گوگل دیپ‌مایند و چندین شریک جهانی، ابتکار عمل گسترده‌ای را برای مطالعه رفتارهای غیرقابل پیش‌بینی که در اثر تعامل میلیون‌ها عامل خودمختار در دنیای واقعی رخ می‌دهند، آغاز کرده‌اند.

مسئله چندعاملی: فراتر از ایمنی مدل‌های انفرادی

در بخش بزرگی از عصر فعلی هوش مصنوعی، تحقیقات بر ایمنی مدل‌های تک‌گانه متمرکز بوده است؛ یعنی اطمینان از اینکه یک مدل زبانی بزرگ (LLM) خاص، محتوای سمی تولید نکند یا از دستورات مخرب پیروی نکند. با این حال، گوگل دیپ‌مایند و شرکای آن تشخیص داده‌اند که چالش واقعی در «سیستم‌های چندعاملی» نهفته است.

هنگامی که تعداد زیادی از عامل‌ها در سطح اقتصاد مستقر می‌شوند، اکوسیستم پیچیده‌ای ایجاد می‌کنند که در آن رفتار جمعی می‌تواند به طرز رادیکالی با مجموع اجزای آن متفاوت باشد. این «ذهن جمعی عامل‌ها» (agent hive mind) می‌تواند پتانسیل منجر شدن به هوش نوظهور یا، به شکلی نگران‌کننده‌تر، آشوب نوظهور را داشته باشد. کارشناسان هشدار می‌دهند که ما نمی‌توانیم این نتایج را تنها با مطالعه مدل‌های ایزوله پیش‌بینی کنیم؛ در عوض، پژوهشگران باید از شبیه‌سازی‌های واقع‌گرایانه و در مقیاس بزرگ استفاده کنند تا مشاهده کنند که عامل‌ها چگونه در محیط‌های آزمایشی دیجیتال (digital sandboxes) با هم تعامل، رقابت یا به‌طور ناخواسته همکاری می‌کنند.

ائتلافی ۱۰ میلیون دلاری برای تحقیقات دانشگاهی

برای پر کردن این شکاف، گوگل دیپ‌مایند ائتلاف قدرتمندی را گرد هم آورده است تا ۱۰ میلیون دلار بودجه برای پژوهشگران فراهم کند. این مشارکت شامل Schmidt Sciences (یک بنیاد خیریه به رهبری Eric و Wendy Schmidt)، ARIA (آژانس پروژه‌های بلندپروازانه دولت بریتانیا)، بنیاد Cooperative AI و Google.org است.

هدف استراتژیک این است که تحقیقات از دیوارهای آزمایشگاه‌های بزرگ فناوری خارج شده و به محیط‌های دانشگاهی منتقل شوند. در حالی که رهبران صنعت مانند Google و Anthropic در حال ساخت این فناوری هستند، پژوهشگران دانشگاهی این آزادی را دارند که به آینده دورتر نگاه کنند و ریسک‌های سیستماتیک بلندمدتی را بررسی کنند که ممکن است اولویت‌های فوری در چرخه‌های محصولات تجاری نباشند. هدف این بودجه، ایجاد حوزه بنیادی «ایمنی چندعاملی» است که در حال حاضر وجود خارجی ندارد.

از تزریق دستور (Prompt Injection) تا آنارشی دیجیتال

ریسک‌های مرتبط با سیستم‌های چندعاملی صرفاً تئوری نیستند؛ آن‌ها نسخه‌های تقویت‌شده‌ای از تهدیدات امنیت سایبری موجود هستند. نگرانی‌های کلیدی عبارتند از:

  • تزریق‌های پیشرفته دستور (Prompt Injections): یک عامل ممکن است توسط یک جمله مخرب که در میان یک سند پنهان شده، «ربوده» شود و یک دستیار مفید را به یک بدافزار خودگردان تبدیل کند.
  • کلاهبرداری‌ها و حملات سایبری خودکار: عامل‌های دارای قابلیت استدلال و بداهه‌پردازی می‌توانند حملات پیچیده و چندمرحله‌ای مهندسی اجتماعی یا هک را در مقیاس وسیع اجرا کنند.
  • بی‌ثباتی سیستماتیک: درست همان‌طور که نهادهای انسانی می‌توانند باعث تغییرات اقتصادی پیش‌بینی‌نشده شوند، استقرار گسترده عامل‌های خودمختار می‌تواند منجر به «آنارشی» دیجیتال یا بی‌ثباتی بازار شود.

برخلاف نرم‌افزارهای سنتی که از مسیرهای ثابت نوشته‌شده توسط انسان‌ها پیروی می‌کنند، عامل‌های هوش مصنوعی استدلال کرده و بداهه‌پردازی می‌کنند. این پیش‌بینی‌ناپذیری، تغییر به سمت چارچوب‌های «اعتماد صفر» (zero trust) را ضروری می‌سازد — رویکردی که توسط Anthropic ترویج می‌شود — که در آن با هر عامل به عنوان یک آسیب‌پذیری بالقوه برخورد می‌شود.

نکات کلیدی

  • ابتکار جدید تأمین مالی: Google DeepMind و شرکای آن ۱۰ میلیون دلار برای تأمین مالی تحقیقات دانشگاهی در زمینه رفتارهای پیش‌بینی‌ناپذیر عامل‌های هوش مصنوعی در حال تعامل، اختصاص داده‌اند.
  • ریسک‌های نوظهور: نگرانی اصلی این است که میلیون‌ها عامل خودمختار می‌توانند ریسک‌های سیستماتیکی مانند حملات سایبری خودکار و رفتارهای «ذهن کندویی» (hive mind) ایجاد کنند که با آزمایش مدل‌های تک‌گانه قابل پیش‌بینی نیستند.
  • تغییر در پارادایم‌های امنیتی: با گذار عامل‌ها از نرم‌افزارهای ثابت به سمت موجودیت‌های استدلال‌گر، صنعت در حال تغییر به سمت مدل‌های «اعتماد صفر» برای کاهش ریسک‌های ربوده شدن و تزریق دستور (prompt injection) است.