Google DeepMind Dukung Dana $10 Juta untuk Mengatasi Risiko Keamanan AI Multi-Agen

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 minggu yang lalu3min read

In this article

Google DeepMind Dukung Dana $10 Juta untuk Mengatasi Risiko Keamanan AI Multi-Agen

Seiring berkembangnya agen AI dari chatbot sederhana menjadi entitas otonom yang mampu menjalankan tugas-tugas kompleks, sebuah batasan baru dari risiko sistemik mulai muncul. Google DeepMind dan beberapa mitra global telah meluncurkan inisiatif besar untuk mempelajari perilaku tak terduga yang muncul ketika jutaan agen otonom ini mulai berinteraksi di dunia nyata.

Masalah Multi-Agen: Melampaui Keamanan Model Individual

Selama sebagian besar era AI saat ini, penelitian telah berfokus pada keamanan model tunggal—memastikan LLM tertentu tidak mengeluarkan konten beracun atau mengikuti prompt berbahaya. Namun, Google DeepMind dan para mitranya menyadari bahwa tantangan sebenarnya terletak pada "sistem multi-agen."

Ketika sejumlah besar agen diterapkan di seluruh ekonomi, mereka menciptakan ekosistem kompleks di mana perilaku kolektifnya dapat sangat berbeda dari jumlah bagian-bagiannya. "Agent hive mind" ini berpotensi menyebabkan kecerdasan yang muncul (emergent intelligence) atau, yang lebih mengkhawatirkan, kekacauan yang muncul (emergent chaos). Para ahli memperingatkan bahwa kita tidak dapat memprediksi hasil ini hanya dengan mempelajari model yang terisolasi; sebaliknya, para peneliti harus menggunakan simulasi skala besar yang realistis untuk mengamati bagaimana agen berinteraksi, bersaing, atau secara tidak sengaja berkolaborasi dalam sandbox digital.

Koalisi Senilai $10 Juta untuk Penelitian Akademik

Untuk mengatasi celah ini, Google DeepMind telah menyusun koalisi yang kuat untuk menyediakan pendanaan sebesar $10 juta bagi para peneliti. Kemitraan ini mencakup Schmidt Sciences (sebuah yayasan filantropi yang dipimpin oleh Eric dan Wendy Schmidt), ARIA (lembaga moonshot pemerintah Inggris), Cooperative AI foundation, dan Google.org.

Tujuan strategisnya adalah untuk memindahkan penelitian keluar dari dinding laboratorium teknologi besar dan ke dalam dunia akademik. Sementara pemimpin industri seperti Google dan Anthropic sedang membangun teknologinya, peneliti akademik memiliki kebebasan untuk melihat lebih jauh ke masa depan dan menyelidiki risiko sistemik jangka panjang yang mungkin bukan menjadi prioritas utama dalam siklus produk komersial. Pendanaan ini bertujuan untuk membangun bidang dasar "keamanan multi-agen," yang saat ini belum ada.

Dari Injeksi Prompt hingga Anarki Digital

Risiko yang terkait dengan sistem multi-agen bukan sekadar teoretis; risiko tersebut merupakan versi yang lebih kuat dari ancaman keamanan siber yang sudah ada. Kekhawatiran utama meliputi:

Advanced Prompt Injections: An agent could be "hijacked" by a single malicious sentence buried in a document, turning a helpful assistant into self-guided malware.
Automated Scams and Cyberattacks: Agents capable of reasoning and improvisation can execute complex, multi-step social engineering or hacking attempts at scale.
Systemic Instability: Just as human institutions can cause unforeseen economic shifts, a massive deployment of autonomous agents could lead to digital "anarchy" or market instability.

Unlike traditional software, which follows fixed paths written by humans, AI agents reason and improvise. This unpredictability necessitates a shift toward "zero trust" frameworks—an approach championed by Anthropic—where every agent is treated as a potential vulnerability.

Key Takeaways

New Funding Initiative: Google DeepMind and partners have committed $10 million to fund academic research into the unpredictable behaviors of interacting AI agents.
Emergent Risks: The primary concern is that millions of autonomous agents could create systemic risks, such as automated cyberattacks and "hive mind" behaviors, that cannot be predicted by testing single models.
Shift in Security Paradigms: As agents move from fixed software to reasoning entities, the industry is shifting toward "zero trust" models to mitigate the risks of hijacking and prompt injection.