DeepMind的最新研究显示,人工智能会根据所处环境改变行为方式,这与人类类似。
根据博弈论和社会学原理,DeepMind的计算机科学家研究了人工智能在不同社会环境下的行为。在这项研究中,他们发现,如果人工智能发现自己将要失败,那么将会表现出“更激进的行为方式”。而如果可能的收益更大,那么人工智能将学会团队合作。
在这项研究中,人工智能参与了两种游戏:收集水果游戏,以及“群狼”狩猎游戏。这是两款基本的2D游戏,操纵角色的人工智能与DeepMind用于Atari游戏最初的人工智能类似。
Gathering gameplay
Wolfpack gameplay
Gathering gameplay
在收集水果游戏中,DeepMind利用深度增强学习去训练系统收集苹果。在收集到1个苹果时,就可以获得1分,而苹果将从游戏地图上消失。
为了击败游戏中的对手,人工智能需要向对手发射“光束”。在被击中两次后,玩家将在一段时间里被迫脱离游戏。在这个游戏中,击败对手的方法就是将其踢出游戏,收集所有的苹果。
研究人员在论文中表示:“很直观地,在这个游戏中击败对手的策略很激进,例如频繁瞄准对手,试图将其踢出游戏。”研究人员尤其观察了,当剩余苹果数量很少时,游戏中会发生什么情况。
在游戏中人工智能走出4000万步之后,他们发现,当剩余资源(苹果)较少,采取行动的成本(无法得分)较高时,人工智能会采取“非常激进的策略”。论文称:“在资源丰富、行动成本较低的环境中,人工智能会采用不太激进的策略。而贪婪的动机反映了击败对手,独吞所有苹果的冲动。”
在另一款“群狼”游戏中,游戏中的两个角色扮演狼,追踪第三个角色,即猎物。当两只狼接近猎物并最终捕获猎物时,他们都可以得分。论文称:“一只狼可以解决猎物,但猎物的尸体可能被食腐动物抢走。”两只狼一同行动可以避免这样的情况出现,从而得到较高的分数。
与收集水果游戏类似,人工智能也从这样的环境中进行了学习。在这款游戏中,人工智能角色一同行动:要么是首先找到彼此,一同狩猎,要么是找到猎物,同时等待伙伴的到来。
这表明,人工智能可以在某些任务中合作,取得最佳结果。论文第一作者、DeepMind研究科学家乔尔·Z·勒博(Joel Z Leibo)表示:“目前,我们将人工智能合作的基本原理视为科学问题,这将指导未来我们对多人工智能的研究。”
“从长期来看,这类研究将帮助我们更好地理解和控制复杂多人工智能系统的行为,例如在解决经济、交通和环境挑战的过程中。”他表示,“这种模式也表明,类似人类行为的某些方面是环境和学习的产物。”开发能够合作的人工智能将帮助人类制定政策,带来现实世界应用。