今天Google专门从事深度学习研究的子公司DeepMind宣布新一代Alpha Go正式诞生,被命名为AlphaGo Zero(零号阿尔法狗?)。在经历了AlphaGo Lee、AlphaGo Master等等多个版本的迭代,AlphaGo Zero开始了全新的模式,它再也不学习人类的棋谱、走法,而是完全依靠自我对弈来迅速提高棋艺,从而走出人类对于围棋认知的局限与定式,可能围棋也成为人类无法打败机器人的一种棋。
今年我们见识过Alpha Go利用深度神经网络算法进行学习后,围棋棋艺提升速度之快,让人瞠目结舌,先在AlphaGo Lee 4:1击败韩国棋手李世石,后有AlphaGo Master在网络围棋上以60:0全胜记录,横扫围棋高手,尔后又有中国围棋第一人柯洁0:3完败给AlphaGo 2.0。大家见证了深度学习下的AlphaGo每天都在发育成长,棋艺一步步超越人类,甚至可以走出人类不曾理解的全新走法。
AlphaGo Zero与之前所有版本的AlphaGo最大不同再与,它抛弃过去先学习人类棋谱、定式走法,然后在自我对弈提升棋力,但是这样有一个非常严重的缺陷,那就是带有模仿人类的围棋模式,这样AlphaGo的棋艺也会被局限于人类对于围棋认知范围之内。因此AlphaGo Zero选择了一条光明大道,在几周的时间内学习围棋的一些一些关键概念,但该系统学习的内容已抛弃一切与人类积累围棋知识,然后会自我对弈达到学习目的。在40天的训练时间内,AlphaGo Zero无休止地运行了2900万次自我对弈。
简单来说,AlphaGo Zero不模仿人类最好的走法,而是完全为了胜利而下棋,这样纯粹的走法或许可以帮助人类选手走出围棋认知困局。同时这种全新的学习思路被证实是行之有效的,实战证明AlphaGo Zero可以百分百胜过AlphaGo Lee,而对战AlphaGo Master胜率也有89%。
我们都知道AlphaGo背后依靠的是强大的超级电脑进行实时运算,更令人惊讶的是,AlphaGo Zero居然可以做到使用更少的硬件规模得到更好的结果,从第一代AlphaGo Fan需要用到176个GPU芯片,到AlphaGo Zero和AlphaGo Master一样,只需要使用一台配有4个TPU的机器即可完成任务。可以说是实现了质的飞跃,而非靠数量来取胜,围棋算法上应该取得了重大突破。减少硬件规模带来的优势之一就是功耗急剧减少,功耗减少了数十倍。
由于围棋拥有19x19的棋盘,每个位置都拥有三种状态,曾经被誉为最复杂的棋,但是DeepMind已经带领AlphaGo Zero站在了围棋的巅峰,即便是人类最强的选手再也无法战胜它,那么AlphaGo的下一步是什么?