阿尔法狗战胜李世石后谷歌新AI碾压人类职业电竞选手

2019-01-30 | 浏览：

原标题：阿尔法狗战胜李世石后谷歌新AI碾压人类职业电竞选手

Alphabet旗下独立团队DeepMind开发的人工智能机器人AlphaStar在《星际争霸2》中打败了人类职业选手，这是人工智能领域里的又一个第一次。通过网络直播的一系列在12月进行的比赛中，人工智能玩家连续10次击败了人类选手，让Liquid战队的两位职业选手完败。

只有在最后一场现场直播比赛中，星际争霸职业选手“MaNa”才为人类赢得一场胜利。现年25岁的MaNa本名为Grzegorz Komincz是波兰人，目前效力于Liquid战队，他在星际争霸2的世界冠军赛系列赛中排名第一，在多项赛事中进入前四。

但在这一对决中，MaNa并不轻松。他是在队友TLO失败五次后上场的。这位5岁就开始打星际争霸的职业选手，在面对连续两场半小时即被AlphaStar打败后，他曾沮丧地对外界表示，“我现在只有一个念头，活着就行”，但在当时MaNa还是输掉了后面的比赛。

他不知道的是，他面对的AlphaStar不仅经过了相当于人类200年不间断游戏的训练，而且是在若干个AlphaStar中彼此对决后战绩最佳的那一个。

对于这场人机对战的结果，原因无他，AlphaStar果断地执行了战术，并且表现出精准的操作。在赛后DeepMind联合研究负责人David Silver表示，未来的人们可能会回顾（今天），或许会认为这是人工智能系统所能做的又向前迈了一步。

与人竞技，是人工智能系统证明自己的一种方式，穿插在整个技术发展演进的过程中。与国际象棋或者围棋这样的全盘博弈不同，星际争霸显然更加困难，因为人工智能无法通过观察每一颗棋子的移动来计算下一步动作，而系统必须实时做出反应。

AlphaStar是谁？

时间拨回2010年，神经科学家、电子游戏设计者Demis Hassabis和两个同伴在英国成立了一家人工智能公司DeepMind Technologies。该公司创造了一种以人类的方式学习如何玩电子游戏的人工神经网络，并可接入一个外部存储器，使得一台计算机可以模拟人类短期记忆。

与Facebook洽谈未果后，2014年1月，谷歌宣布收购DeepMind，价格为4亿英镑，而当时这家公司的雇员只有50名。随后，DeepMind开始人机围棋的研究。

2015年8月，谷歌因多样化公司精简架构需要宣布重组成立母公司Alphabet，除了搜索、Android和YouTube外，其他业务纷纷独立。虽然2017年9月，谷歌再度将Waymo和Verily等公司打包进控股公司XXVI，但DeepMind并不在内。

DeepMind官方工作人员回复记者称，“DeepMind是一个独立的团队，在Alphabet内部自主运营，但我们在谷歌与许多团队进行了大量合作”。

2015年底，搜索之后，谷歌开始重新谈论技术，并认定机器学习成为其接下来产品必备的技能，并开放机器学习系统TensorFlow。但真正让谷歌在人工智能大放异彩的是，2016年3月，DeepMind开发的人工智能系统AlphaGo以4-1打败韩国围棋冠军李世石。

一些人工智能行业的从业者甚至认为，这是第三轮人工智能热潮兴起的标志。事实上，2015年10月，AlphaGo就已经面世，并且打败了欧洲围棋冠军樊麾，后者加入了DeepMind团队，帮助训练AlphaGo。

2017年初，AlphaGo以“Master”为名，陆续在网络上挑战了60名人类棋手，保持全胜战绩。5月，第二代AlphaGo 3：0战胜了中国棋手柯洁。AlphaGo项目的主要负责人David Silver表示，AlphaGo已经不需要依赖人类训练了。

同年12月，DeepMind推出AlphaGo Zero。只用了4个小时的训练时间，就可以从零开始学会国际象棋的规则，并且在100场比赛中取胜28场，平局72场。在国际象棋游戏的评级中，Zero经评估约在4000左右，而大师级玩家评分在2500以上。

对于AlphaStar，上述官方工作人员告诉记者，AlphaStar是DeepMind为玩星际争霸而创造的人工智能系统的名字。尽管与Zero有相似之处，但两者是不同的系统，AlphaStar将监督学习和强化学习结合，与许多不同版本的自己对弈，用于测试和改进策略。

AlphaStar可以解决“不完美的信息”

比赛中的DeepMind科学家们并不轻松。因为这款2010年由暴雪娱乐出品即时战略游戏的复杂程度远超过围棋比赛。一位游戏公司的CEO告诉记者，游戏分为“Play”和“Game”两个概念，围棋是“Game”，找出最优决策组即可，而包含“Play”后就增加了挑战的目标。

事实上，一方面，AlphaStar比基于搜索方法的AlphaGo和Zero，更适应不完美的信息，另一方面，AlphaStar是一种无模型强化学习算法，可以通过学习对付其对手最有效的行为，而不是试图建立对手实际看到的模型。

David Silver表示，“不完美的信息游戏没有绝对的最佳游戏方式，取决于对手的行为”。正因为此，AlphaStar在游戏中使用了包括覆盖策略空间所有角落等新的方式，而这在AlphaGo系统的游戏中并不需要。

具体来说，在围棋比赛中，人工智能是可以观察到人类对手的每一个行动和全部棋盘格局，但在《星际争霸2》中，因为游戏包含“战争迷雾”的视野限制，人工智能只能观察到部分地图，人工智能也需要像人类一样派出手中资源对地图进行探索，从而获取对手行动。

所谓“不完美的信息”，在这里就是指，人工智能无法对全局进行掌控，而这对人工智能来说是一个极大的挑战。

另一个不完美是指动作海量后带来的复杂性。在围棋比赛中，可以根据361落点精准计算出行动步骤，但在《星际争霸2》中，一个简单的单位就可以执行超过300项的基本行动，而许多行动需要精准计算到地图的某个点，而在比赛中，需要同时选择和控制上百个单位。

DeepMind官方披露的信息显示，其设定的参数为，平均每个时间步（time-step）进行10到26个基本行动。

此外，值得注意的是，策略本身的复杂性。与步步谋划的围棋不同，《星际争霸2》这类即时战略游戏早已衍生出多种流派操作，而且十分注重开局的过程，因为资源短缺的情况下在后期很难翻盘。但对人工智能而言，前期的行动可能无法很短期内获得回报。

打败人类的背后是超过200年时间的练习

在一篇博客中，DeepMind表示，游戏一直被作为测试和评估人工智能系统性能的重要方法。随着能力的提高，研究界开始寻求越来越复杂的游戏，捕捉解决科学和现实问题所需的不同智能元素。星际争霸因被认为是最具挑战性的即时策略游戏之一，而成为研究的“重大挑战”。

自从2009年发布BroodWar API（母巢之战的应用接口）后，星际争霸的竞赛一直在进行，分成不同等级的赛事，为了帮助平台探索，DeepMind与暴雪娱乐在2016年和2017年合作发布了一款名为PySC2的开源工具，其提供游戏回放记录的功能。

DeepMind称，这项工作的基础之上，结合工程和算法的突破，产生了AlphaStar。

AlphaStar的行为是由深度神经网络生成的，该神经网络接收来自原始游戏界面输入的数据，并输出构成游戏内动作的一系列指令。AlphaStar还是用了一种新的多智能体学习方法，也被称为模仿学习，使得其能够通过模仿不同等级的玩家使用的行为和策略。

具体来说，DeepMind与暴雪合作，将游戏界面分为若干个包含特征的层，通过不同颜色色块区分，但保留空间信息。人工智能可以将各项任务理解为更为细节的操作，但这样无法掌控全局。为了解决这一麻烦，AlphaStar通过10万多个真实案例，进行上述的模仿学习。

在这样的过程中，DeepMind获得了多个版本的AlphaStar，而这些版本之间不断竞争，最后留下胜率最高的版本。早期被看好的利用光子炮和黑暗圣堂武士进行快攻的策略，随着训练的进展，逐步因为风险太大而被淘汰。

不仅如此，为了训练AlphaStar，DeepMind团队使用了谷歌的Cloud TPU v3构建了一个可以扩展的分布式训练设置，使得两周之内的时间，每一个版本的AlphaStar相当于玩了200年的《星际争霸2》。

在最终直播中播放的录像来看，游戏进行一半时，AlphaStar已经预测自己有较高的胜率打赢MaNa。不过，DeepMind研究科学家Oriol Vinyals表示，直到AlphaStar第一次打败TLO，后者对他们说，“你们真的做到了”，他才放松下来。Oriol Vinyals曾是谷歌大脑团队的成员。

在录像中，AlphaStar十战全胜，展现了人工智能的能力。但在最终的直播大战中却出现了翻转，MaNa赢得了比赛。在这场比赛中，MaNa不停骚扰AlphaStar的基地，并且牵制后者的兵力不断往返于基地和资源之间，迫使AlphaStar难以策略成型。

但在复仇赛后，MaNa也同样感到，如果对手是人类，就不会犯下这样的错误。

失败令人沮丧，但是对DeepMind来说，AlphaStar的训练时间并不长，而看起来一旦有进一步训练的机会，它将会重新赢得比赛。DeepMind团队赛后已经开始着手研发AlphaStar新的版本，而这在一些业内人士看来，类似于AlphaGo的早期实践。

DeepMind在游戏方面的研究并没有直接对应商业的前景，而它的一些其他研究成果已经为谷歌所使用。Demis Hassabis曾表示，“如果说谷歌是火箭，DeepMind就是燃料”。问题是，燃料能烧多久？

DeepMind从营收来源来看难以断奶Alphabet。2018年10月，英国公司注册署披露的一份文件显示，该公司2017财年税前亏损高达2.81亿英镑，同比增长123%，而营收仅为5440万英镑，其来源是通过技术帮助母公司提高数据中心制冷系统的效能等服务。

新京报记者梁辰编辑程波校对柳宝庆

TAGS：阿尔法狗人工智能人类