Het uitvoeren van vreemd gedrag in een omgeving zorgt ervoor dat kunstmatige intelligentie systemen getraind met deze techniek te verwarren. De aanval omvat het manipuleren van het beleid van het algoritme met een antagonistisch beleid dat ervoor zorgt dat u de controle verliest en ongewenste acties uitvoert

Een voetbalbot wordt geplaatst om bij doel te ontspruiten. Maar in plaats van zich voor te bereiden om het te stoppen, valt de portier op de grond en beweegt zijn benen. Verward begint de robotspits een vreemde dans uit te voeren, een arm te springen en te bewegen, en valt dan ook. 1-0 voor de doelman.

Hoewel er geen enkele menselijke voetballer zou volgen, toont het aan dat kunstmatige intelligentie (AI) getraind met diep versterkt leren (de techniek achter geavanceerde AI voor videogames als AlphaZero en OpenAI Five) kwetsbaarder is voor aanvallen dan gedacht, een zwakte die ernstige gevolgen kan hebben.
In de afgelopen jaren hebben onderzoekers veel manieren gevonden om getrainde AI aan te vallen met getagde gegevens, een benadering die bekend staat als supervised learning. Maak enkele kleine aanpassingen aan de AI-invoergegevens, zoals het wijzigen van enkele pixels in een afbeelding, zodat het algoritme volledig in de war is tot het punt dat het een afbeelding van een dier als raceauto kan identificeren, bijvoorbeeld. En het ergste is dat deze zogenaamde antagonistische aanvallen geen gemakkelijke oplossing hebben.

In vergelijking met begeleid leren is beter leren een relatief nieuwe techniek en is het minder bestudeerd. Maar het blijkt dat het ook kwetsbaar is voor manipulatie van de invoergegevens. Versterkt leren leert een AI hoe je je moet gedragen in verschillende situaties door het beloningen te geven voor het juiste te doen. Uiteindelijk leert AI een actieplan, politiek genoemd. Beleid is wat een AI leren om videogames te spelen, auto’s rijden of geautomatiseerde handelssystemen draaien.

In 2017 analyseerde de onderzoeker die nu werkt aan DeepMind Sandy Huang en haar collega’s een getrainde AI met versterkt leren om klassieke Pong-videogames te spelen. Ze bewezen dat het genoeg was om een enkele verkeerde pixel toe te voegen aan de invoervideo’s voor de AI om games te verliezen.

Nu, de onderzoeker aan de Universiteit van Californië, Berkeley (USA) Adam Gleave heeft de negatieve aanvallen naar een ander niveau gebracht. In feite, de voorbeelden die we tot nu toe hebben gezien, maken je niet eens zorgen. De onderzoeker details: “Ik ben een beetje sceptisch dat ze een bedreiging. Het idee dat een aanvaller ons machine learning-systeem gaat vernietigen door een kleine hoeveelheid ruis toe te voegen, lijkt niet realistisch.”

Wat je wel zorgen baart, is dat in plaats van een AI te verleiden tot het zien van iets dat er niet echt is, het mogelijk is om de manier waarop dingen om je heen handelen te veranderen. Met andere woorden, een getrainde AI met versterkt leren kan worden misleid door vreemd gedrag. Gleave en zijn collega’s noemen het antagonistische politiek. Het is een bedreiging model dat niet bekend is tot nu toe, Gleave onderscheidt zich.

Leave a comment

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *