AlphaZero降临:8小时内拿下围棋、国际象棋、日本将棋!

DeepTech深科技2017-12-08 03:03

(《麻省理工科技评论》中英文版APP现已上线,年度订阅用户每周直播科技英语讲堂,还有科技英语学习社区哦~)

自从DeepMind的AlphaGo在围棋赛场上一战成名之后,人类对AI的恐惧就突然出现于世。但自那以后,这家Google旗下的人工智能公司并没有停止前进的脚步,又推出了实力更强的AlphaGo Zero,而他们的远期目标是打造出通用的人工智能机器。虽然这一目标尚显遥远,但根据本周DeepMind科学家发表的最新的论文来看,他们已经走在了正确的道路上。

※ 论文地址:https://arxiv.org/pdf/1712.01815.pdf

在这篇论文中,DeepMind详细描述了AlphaGo Zero的“继承者”—— AlphaZero(注:之前刷屏的是 AlphaGo Zero,它做到的是不依赖任何人类知识,3天超越李世乭版本)。AlphaZero 首先经过 8 个小时的对世界顶级围棋棋谱的学习,就成功击败了与李世石对战的 AlphaGo v18;又经过了 4 个小时的训练,它又击败了世界顶级的国际象棋程序——Stockfish;紧接着,又是2个小时的训练之后,世界上最强的日本将棋程序Elmo又败在了它的手下。

看出来了吗?AlphaZero 或许已经有了些许迈向棋类通用 AI 的迹象!和AlphaGo Zero相比,AlphaZero的主要变化在于:

1、AlphaGo Zero优化时假定两种结果:输、赢。AlphaZero则有三种:输、赢、 僵持 。围棋每一步都可以有一个输赢,即谁的数量多,但是其他的很多棋在中间是没有输赢的,所以这样的设计使得AlphaZero从围棋跨向棋类领域。

2、AlphaZero能适应更为复杂的规则。围棋规则相对简单,规则具有旋转和反射不变形和对称性,所以AlphaZero的算法适应了将棋的规则意味着对于这样规则多变复杂的棋类的有效性。

3、在所有棋类中使用相同的超参数,这是泛化的表现,期间不需要针对特定棋做改变。

4、AlphaGo Zero的最优策略由之前所有迭代的最佳选手生成。在每一轮的迭代中,新玩家都将和最佳选手比较。如果新玩家以55%的差距获胜,那么他就会取代最选选手。而 AlphaZero 只保留一个网络,并持续更新,而不必等待一个迭代结束,self-game的结果由这个网络的最终参数生成。这就省去了ZeroGo中每一步的评估和对最佳选手的选择。

从中我们也可以发现,AlphaZero 并不是针对某一种棋类被专门开发出来的,在不同的棋类游戏中,它只是被传授一些基本的规则,但类似于更高级别的战略策略则完全没有,只凭借人工智能自己反复的从训练和实战中获得,而这种训练方法就是我们熟知的“强化学习”(reinforcement learning)。

图丨强化学习入选《麻省理工科技评论》10大突破技术

使用强化学习这项技术并不是新鲜事,今年10月DeepMind的工程师过去也是使用相同的方法来打造AlphaGo Zero,不过,值得注意的是,新的AlphaZero是同一套软件下“更通用的版本”,代表可以应用于更广泛的任务,而且不需要预先准备好。在不到24小时,同一个电脑程式就可以教会自己玩三种复杂的棋盘游戏,而且是超越人类的水平,这无疑是AI世界的新创举。

在这次研究中,研究团队使用了5000个一代TPU来生成自我对弈棋谱,用另外64个二代TPU来进行神经网络训练。而在此前AlphaGo Zero的神经网络训练中使用的则是GPU。DeepMind 的目标一直是打造通用的AI机器,这项任务代表DeepMind又往目标迈进了一步,但是挑战仍在前方,DeepMind CEO Demis Hassabis在今年初展示AlphaGo Zero时,他就希望未来的版本能够帮助解决科学问题,像是设计新药、发现新材料等。但是这些问题与玩棋盘游戏在根本上有很大的差异,还有许多问题得被解决才能找出正确的算法。

大概总结一下人类开发棋类AI 的思路,那就是:精心设计特征,调整参数,依赖强大的搜索算法——学习人类的全部经验——不学习人类的经验,自己学习——自己在一个广泛的领域学习。不过,现在可以肯定的是,人工智能不再只是会下棋而已。至于对普通人类来说,我们只能说,DeepMind 论文可以不用发太快,上次的还没消化完!

以下为论文摘要部分,仅供各位参考:

在计算机科学刚诞生的时候,巴贝奇、图灵、香农和冯诺依曼这些先驱们就开始从硬件、算法和理论的角度研究国际象棋。从那时起,国际象棋就成了人工智能领域的重大挑战。虽然最终人们让程序在国际象棋棋盘上战胜了人类,但是相关的算法并不通用:判断每一步行棋优劣的评分算法由国际象棋专家手动调整定制,因此很难扩展到其他应用场景中。

相对国际象棋来说,源自日本的将棋远更复杂。首先,它的棋盘更大;其次,棋子被吃后会换边,并出现在棋盘的任何地方。直到最近,代表将棋程序最高水平的Elmo才打败了人类冠军棋手。将棋程序和之前的国际象棋类似,需要根据自身特点高度优化的alpha-beta搜索引擎,并根据将棋自身的特性进行很多修改。AlphaGo的神经网络架构更适合围棋。因为围棋的规则变化较少。而象棋和将棋的规则变化较多,很多规则还要基于棋盘上的具体位置。例如象棋中的“兵”在第一步的时候可以前进一格或两格,并在到达对方底线后升棋(即兵可以升级为车、马、象或后)。

相对于用来下围棋的AlphaGo Zero,AlphaZero的算法通用性更强。它去掉了一些需要手工调整的专业棋类知识,并用可以从头进行增强学习的深度神经网络取而代之。


相关推荐

猜你喜欢


实时新闻


精彩图片


精彩推荐