Google DeepMind 团队发布新算法，下一个被 AI 虐哭的是谁？

【CSDN 编者按】2015 年 AlphaGo 出道一年，就战胜法国二段职业棋手樊麾，2016 年 3 月以 4:1 战胜韩国国手李世石九段，3 月 14 日，韩国棋院表示 Alpha...

CSDN资讯

814人浏览 · 2021-01-04 14:54:45

CSDN资讯 · 2021-01-04 14:54:45 发布

【CSDN 编者按】2015 年 AlphaGo 出道一年，就战胜法国二段职业棋手樊麾，2016 年 3 月以 4:1 战胜韩国国手李世石九段，3 月 14 日，韩国棋院表示 AlphaGo 实力不逊于李世石九段，授予 Alphago 韩国棋院名誉九段证书。AlphaGo 一战成名，要知道，多少棋手宵衣旰食也到不了九段。同年 12 月，强化版 AlphaGo 化名“Master”，在非正式网络快棋对战测试当中取得 60 战全胜。2017 年 5 月，与中国棋手柯洁九段对战，全取三分，虐哭柯洁。而且由于此次使用 Google 的 TPU，使得计算资源只有对战李世石时候的十分之一。要知道，柯洁可不是旁人，是当时世界第一，年纪轻轻，已经手握多项含金量高比赛的冠军，代表人类最高水平的棋手都无能为力，可见 AlphaGo 真的不是寻常之辈。赛后，中国围棋协会也授予了 AlphaGo 职业围棋九段的称号，棋圣聂卫平更是盛赞 AlphaGo 的水平相当于职业围棋二十段。赛后，DeepMInd 团队宣布 AlphaGo 退役，但相关研究不会停止。

作者 | 八宝粥

出品 | CSDN（ID：CSDNnews）

中国围棋协会授予 AlphaGo 中国职业围棋九段称号

DeepMind 团队为 AlphaGo 各个版本起了不同名字，历数几代分别称为 AlphaGo 樊、AlphaGo李、AlphaGo Master，后来还推出了 AlphaGo Zero 和 Alpha Zero 等版本， AlphaGo Zero 及此后版本没有用到人类数据，通过和自己对战，训练三天即可实现极高胜率。在那之后，AlphaGo 团队独孤求败，淡出江湖。此后， DeepMind 在蛋白质折叠等方面也做出 AlphaFold 等令人瞩目的成就。

谁能想到，仅仅淡出了两年，DeepMInd 团队带着 AlphaGo 的后辈——— MuZero 新重出江湖。MuZero 通过自我比赛以及和 AlphaZero 进行比赛，利用多项常规和残局训练，实现了算法的升级突破。相关研究成果论文今年 12 月在国际顶级期刊 Nature 上发出（2019年，该文章在预印本平台发布）。如果此前 AlphaGo 版本是靠着机器学习和算力的一力降十会的话，此次的新算法就是双手互搏，无师自通，不光如此，MuZero 的 “魔爪”从围棋伸向了各个领域，包括国际象棋、日本的将棋和 Atari 电子游戏。你冬练三九夏练三伏，别人一出世就自带超强自学能力，而且人家全家输的次数屈指可数，还都是输给自己人，你说这比赛让人怎么打？

平心而论，再早之前 “深蓝”就已经深深伤过棋手们的心，各类智力比赛和游戏当中，围棋可以说是难度非常高的了，本以为围棋 324 格棋盘生出千万般变化能够守住人类的阵地，结果 AlphaGo 虐哭柯洁， Alpha Zero 还说 “我能自己学”，MuZero 说 “我能自己学，还不需要规则”，就像 AI 世界里的叶问，一个马步摊手，豪气发问：“我要打十个，还有谁？”

如果这次真的有人能上来对阵三招五式的话，可能也只有 AI 本身能对抗 AI了。或者像网友戏谑的那样，“不让他联网”、“拔他电源”。。。。那么 MuZero 到底是哪路神仙呢？我们一起来看一下：

来自 DeepMind 官网

从上图可以看出，随着技术的进化，需要的知识库（规则）逐渐减少，到 MuZero 直接没有了，而应用的领域却逐渐增加，从围棋、将棋扩展到 Atari 游戏。

文章表示，MuZero 和此前的 Alpha Zero 代码相似，但是 MuZero 无法访问规则集合，而是将该规则替换成了搜索树状态神经网络，研究人员主要通过以下方法应对 AI 的挑战，超前搜索和基于模型的计划。超前搜索已经在国际象棋、扑克等景点游戏当中取得成功，但是依赖于游戏规则，这样的话，对于复杂世界和混乱的现实问题就没有办法，因为它们无法提炼成简化的规则；基于模型的系统旨在学习环境动力学的精确模型，然后以此进行规划和学习。不过对于视觉丰富的环境当中依然没有竞争力。比如游戏 Atari 当中，最好的结果其实来自于无模型系统。

MuZero 使用另外的方法来克服此前方法的局限性，它不是对整个环境建模，而是对代理的决策环境或者关键方面进行建模。DeepMInd 表示：毕竟，了解雨伞会使您保持干燥比对空气中雨滴进行建模更有用。

具体而言， MuZero 对三个元素进行建模，分别是值、策略、奖励。分别衡量了：当前位置好坏程度、最优策略以及上一步好坏的衡量。通过蒙特卡罗搜索树，配合动力学函数和预测函数，考虑下一步的动作序列，同时利用了和环境互动时候收集的经验来训练神经网络，在每一步当中保存之前的信息。这个似乎是一种无监督学习内的强化学习。其实它也不能说完全 “无规则”，它唯一的规则其实是我们在下棋当中常说的“走一步、看三步”，不管是什么游戏，它都给自己一个这样的规则。MuZero 就可以反复发使用学习的模型来改进计划，而不需要从环境当中重新收集数据。

从项目主要开发者 Julian Schrittwieser 的博客当中，我们还发现了一些有意思的内容。

来自 Julian Schrittwieser 博客

对于作者而言，这些也仅仅都是 “统计”而已，它是从 AlphaGo 和 Alpha Zero 当中集成的策略网络和价值网络，每一个网络都已经非常强大了，考虑策略网络，就能对于下一步有良好的预判，考虑价值网络，就能选择价值最高的行动，结合两者，当然就更完美了。

ps. 讲点你不知道的东西～

为什么给它取名叫 MuZero 呢？
很大程度上来自于日语发音，开发者 Julian 觉得这个和日语夢、以及無的发音相似（为什么不去学中文啊大哥！）；另外他认为这个发音和希腊字母 μ 也很像。Zero 和此前一样，表示没有用到人类的数据。所以这个算法可以读作“木Zero”、"谬Zero"～不过开发者自己的发音是“谬Zero”。

这位小哥也很有意思，来自奥地利，对各种语言都很感兴趣，当然也包括一些开发语言。而且努力学日语中～

如果你对 MuZero 感兴趣，不妨可以看看小哥博客里面推荐的文章，教你怎么利用 Python 搭建自己的 MuZero AI ，说不定也能用 AI 打败谁（比如街边下棋的大爷）。

从 AlphaGo 震惊围棋江湖以来，越来越多的 “唯人能赢”的游戏开始被 AI 染指，如果此前《星际争霸II》当中战胜人类选手还是算力的取胜，MuZero 双掌互搏就能增长内力、左脚踩右脚就能腾云这次真的是一次巨大的冲击。欢迎下方留言，下一个被 AI 虐哭的会是谁呢？

【参考资料】：

1.DeepMind 官方网站：https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.论文链接：https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年预印版论文下载地址：https://arxiv.org/abs/1911.08265

4.开发者 Julian 的个人博客：http://www.furidamu.org/