谷歌DeepMind推出升级版AlphaGo Zero——AlphaZero

搜狐2017-12-08 08:12

今年11月,谷歌DeepMind 资深研究员黄士杰出席台湾人工智能年会时,曾表示“ Zero未达极限”。这不,在推出最强围棋AI AlphaGo Zero不到50天的时间里,DeepMind又一次超越了自己,于12月5日再发新论文,提出了通用棋类AI AlphaZero。

由于是通用棋类AI,所以在这次命名中去掉了代表围棋的英文“Go”,同时,它也是从零开始训练,除了棋类基本规则外,未涉及其它人类知识。可以说,AlphaZero是一种可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平的新算法。

那么,AlphaZero到底多厉害呢?我们先来看一下它的战绩:

8 个小时训练击败李世石版本AlphaGo12 小时训练击败世界顶级的国际象棋程序 Stockfish14小时训练击败世界顶级将棋程序 Elmo

除此以外,在它的百局战绩中:

对弈国际象棋程序Stockfish:28胜,72平;对弈将棋程序 Elmo:90胜,2平,8负;对弈围棋程序AlphaGo Zero:60胜,40负。

我们可以看出,就算是面对强大的AlphaGo Zero,AlphaZero在训练34小时后,也战胜了训练72小时的前者。

与和AlphaGo Zero相比,AlphaZero的主要变化在于:从围棋跨向其它棋类领域:围棋每一步都可以有一个输赢,但其它棋类并不是这样,很多棋在中间是没有输赢的,所以这就意味着Zero从围棋跨向了更大的棋类领域。更为复杂的规则:围棋规则相对简单,规则具有旋转和反射不变形和对称性。所以这个算法同样适用于将棋的规则,表现了它对于规则多变复杂的棋类的有效性。在所有棋类中使用相同的超参数其实是泛化的表现。不需要针对特定的棋类做改变。省去了每一步的评估和对最佳选手的选择:AlphaGo Zero的最优策略由之前所有迭代的最佳选手生成在每一轮的迭代中,且新玩家都需要和最佳选手进行比赛。如果新玩家获胜,那么他就会取代前一位最佳选手。而 AlphaZero 只保留一个网络,并持续更新,而不必等待一个迭代结束,Self-game的结果由这个网络的最终参数生成。

总的来说,AlphaZero 并不是针对某一种特定的棋类开发,在不同的棋类游戏中,它只是被传授一些基本的规则,然后凭借人工智能自己从反复的训练和实战中获得,而这种训练方法就是我们熟知的“强化学习”(reinforcement learning)。

同时,在这次研究中,该研究团队使用了5000个一代TPU来生成自我对弈棋谱,用另外64个二代TPU来进行神经网络训练。此前AlphaGo Zero的神经网络训练中使用的则是GPU。

不过,DeepMind的目标,并不仅仅是在棋牌类游戏上不断取得突破。DeepMind CEO Demis Hassabis今年初展示AlphaGo Zero时,曾表示希望未来的版本能够帮助解决科学问题,像是设计新药、发现新材料等。

而这次,他们会将这个更通用的程序投入到蛋白折叠的应用上。官方还表示,他们不久就会发表相关论文,通过检测出蛋白错误折叠来快速诊断神经退行性疾病,比如阿尔茨海默症,帕金森,囊状纤维化。


相关推荐

猜你喜欢


实时新闻


精彩图片


精彩推荐