Google DeepMind steunt fonds van $10 miljoen om risico's voor de veiligheid van multi-agent AI op te lossen
Terwijl AI-agenten evolueren van eenvoudige chatbots naar autonome entiteiten die in staat zijn complexe taken uit te voeren, ontstaat er een nieuwe grens van systemische risico's. Google DeepMind en verschillende wereldwijde partners hebben een grootschalig initiatief gelanceerd om de onvoorspelbare gedragingen te bestuderen die ontstaan wanneer miljoenen van deze autonome agenten met elkaar gaan interageren in de echte wereld.
Het multi-agent probleem: verder dan de veiligheid van individuele modellen
Gedurende een groot deel van het huidige AI-tijdperk heeft onderzoek zich gericht op de veiligheid van individuele modellen—het waarborgen dat een specifiek LLM geen giftige inhoud produceert of kwaadaardige prompts opvolgt. Google DeepMind en haar partners erkennen echter dat de echte uitdaging ligt in "multi-agent systemen".
Wanneer grote aantallen agenten worden ingezet in de economie, creëren ze een complex ecosysteem waarin het collectieve gedrag radicaal kan verschillen van de som der delen. Deze "agent hive mind" zou potentieel kunnen leiden tot emergente intelligentie of, nog verontrustender, emergente chaos. Experts waarschuwen dat we deze uitkomsten niet kunnen voorspellen door geïsoleerde modellen te bestuderen; in plaats daarvan moeten onderzoekers realistische, grootschalige simulaties gebruiken om te observeren hoe agenten interageren, concurreren of onbedoeld samenwerken in digitale sandboxes.
Een coalitie van $10 miljoen voor academisch onderzoek
Om dit gat te dichten, heeft Google DeepMind een krachtige coalitie samengesteld om 10 miljoen dollar aan financiering beschikbaar te stellen aan onderzoekers. Het partnerschap omvat Schmidt Sciences (een filantropische stichting onder leiding van Eric en Wendy Schmidt), ARIA (de 'moonshot'-instantie van de Britse overheid), de Cooperative AI foundation en Google.org.
Het strategische doel is om onderzoek buiten de muren van big tech-labs te brengen en naar de academische wereld te verplaatsen. Terwijl industriële leiders zoals Google en Anthropic de technologie bouwen, hebben academische onderzoekers de vrijheid om verder in de toekomst te kijken en langetermijn-systemische risico's te onderzoeken die mogelijk geen directe prioriteit hebben voor commerciële productcycli. Deze financiering is bedoeld om het fundamentele vakgebied van "multi-agent safety" op te bouwen, dat momenteel nog niet bestaat.
Van prompt injections tot digitale anarchie
De risico's die verbonden zijn aan multi-agent systemen zijn niet alleen theoretisch; het zijn versterkte versies van bestaande cybersecurity-dreigingen. Belangrijke zorgen zijn onder meer:
- Geavanceerde prompt-injecties: Een agent kan worden "gehijackt" door een enkele kwaadaardige zin die in een document is verborgen, waardoor een behulpzame assistent verandert in zelfsturende malware.
- Geautomatiseerde scams en cyberaanvallen: Agents die in staat zijn tot redeneren en improviseren, kunnen complexe, meerstaps social engineering- of hackpogingen op grote schaal uitvoeren.
- Systemische instabiliteit: Net zoals menselijke instituties onvoorziene economische verschuivingen kunnen veroorzaken, zou een massale inzet van autonome agents kunnen leiden tot digitale "anarchie" of marktinstabiliteit.
In tegenstelling tot traditionele software, die vaste paden volgt die door mensen zijn geschreven, redeneren en improviseren AI-agents. Deze onvoorspelbaarheid vereist een verschuiving naar "zero trust"-frameworks — een benadering die wordt gepromoot door Anthropic — waarbij elke agent wordt behandeld als een potentiële kwetsbaarheid.
Belangrijkste conclusies
- Nieuw financieringsinitiatief: Google DeepMind en partners hebben 10 miljoen dollar toegezegd voor het financieren van academisch onderzoek naar het onvoorspelbare gedrag van interagerende AI-agents.
- Opkomende risico's: De belangrijkste zorg is dat miljoenen autonome agents systemische risico's kunnen creëren, zoals geautomatiseerde cyberaanvallen en "hive mind"-gedrag, die niet voorspeld kunnen worden door individuele modellen te testen.
- Verschuiving in beveiligingsparadigma's: Nu agents evolueren van vaste software naar redenerende entiteiten, verschuift de industrie naar "zero trust"-modellen om de risico's van hijacking en prompt-injectie te beperken.