Google-zusterbedrijf DeepMind onderzoekt hoe twee kunstmatige intelligenties zich gedragen als hun doel is de hoogste beloning te krijgen. Is het beter dat de twee robots samenwerken of moeten ze de concurrentie met elkaar aangaan? De basis voor dit onderzoek ligt het in prisoner’s dilemma.
Dat vraagstuk geeft het dilemma tussen samenwerken of niet samenwerken weer. Hij luidt als volgt: twee verdachten worden opgepakt en afzonderlijk van elkaar opgesloten. Ze kunnen niet met elkaar communiceren. Het verzamelde bewijs is genoeg om beiden één jaar op te sluiten. Om de gevangen over te halen om te bekennen, krijgen ze allebei een aanbod. Als één verdachte tegen de ander getuigt, wordt hij vrijgelaten en gaat de ander voor drie jaar achter de tralies. Maar als beide verdachten getuigen, moeten ze beiden twee jaar brommen.
In de meest rationele situatie kiezen beiden verdachten ervoor om te zwijgen en zo één jaar gevangenisstraf te nemen. Daar ontstaat de paradox: als beiden zo denken, is het voor één persoon aantrekkelijker om tegen de ander te getuigen.
Appels en wolven
Om erachter te komen hoe kunstmatige intelligenties zich in dit soort situaties gedragen, liet DeepMind twee robots los in een spel waarbij ze appels (de groene blokjes) moeten verzamelen. Rood en blauw worden beloond voor het verzamelen van de appels. Ze kunnen elkaar ook tijdelijk uitschakelen door te schieten, maar worden daar niet voor beloond.
De rode en blauwe robots hebben bovenstaand spelletje duizenden keren gespeeld, schrijft DeepMind op zijn blog. Het doel: leren zich rationeel te gedragen.
Daaruit bleek dat de robots vreedzaam samenwerken als er voldoende appels zijn. Maar zodra het aantal beschikbare appels afnam, bleek het beter om de tegenstander tijdelijk uit te schakelen. ‘Slimmere’ robots hadden in dit spel bovendien vaker de neiging om de tegenstander dwars te zitten.
Het tegenovergestelde bleek bij het spelletje Wolfpack. Daarbij moeten de rode blokjes samen op de blauwe jagen. DeepMind concludeert dat een meer rekenkracht om een complexere strategie toe te passen leidt tot een beter resultaat.
Afhankelijk van de situatie kan het gebruik van een ‘slimmere’ robot leiden tot zowel meer als minder samenwerking, schrijft het bedrijf. Het onderzoek kan volgens DeepMind helpen om kunstmatige intelligentie te ontwerpen die zich moet gedragen in een wereld vol andere intelligente wezens.