当年,19岁的世界围棋第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败,这也是人类顶尖高手与这台机器之间的最后一次较量,AlphaGo从此将退隐江湖。
比赛至中局之时,柯洁再次被AlphaGo的手法惊到了。他先是取下眼镜捂住自己的脸,继而在桌子上趴了几秒钟,起身摇头,再次趴下,然后才用手把头撑起,双手抹了抹眼睛,又重新戴上眼镜。
韩国高手李世石也面对过AlphaGo,曾在三连败的情况下扳回一局,连输两场的柯洁自然也希望能在最后一句中挽回颜面,很可惜这次柯洁全面落于下风。
2017年,机器学习领域最令人兴奋的事件之一,莫过于 AlphaGo 战胜李世石成为世界上最好的围棋选手了。
同年10月份,DeepMind 发表了一篇论文,描述了一个名为 AlphaGo Zero 的新版本。仅仅经过36个小时的训练,AlphaGo Zero已经比击败李世石的阿尔法狗更擅长围棋了。
不仅如此,AlphaGo Zero 学会下围棋,却是在没有任何先验的游戏知识的情况下(换句话说,就是白板)。
而相比之下,之前发布的 AlphaGo 则是在人类围棋比赛数据库的帮助下进行训练的。
这一成就确实非同寻常,因为它表明,我们可以开发一个系统,教会自己从一张白纸上做一些不琐碎的任务,并最终在完成任务方面比人类做得更好。
它同时也表明了,现在整个世界的可能性是触手可及的,只要想象计算机可以教自己做任何人类可以做的事情。
但是取得这样的进步却并不便宜。
正如人类掌握围棋需要多年的训练一样,计算机掌握围棋也需要大量的资源,复现 AlphaGo Zero 的论文中报道的实验需要花费3500万美元的算力。
AlphaGo Zero 学习下围棋的方法是通过一种被称为「self-play」的过程,模拟围棋对它自己的比赛。该论文报告了以下几点:
1.在72个小时里,共进行了490万场比赛
2. 在自我游戏过程中,每个动作大约占用0.4秒的时间
3.在一台机器上执行自我游戏,该机器包含4个 TPU