【CSDN 编者按】2015 年 AlphaGo 出道一年,就战胜法国二段职业棋手樊麾,2016 年 3 月以 4:1 战胜韩国国手李世石九段,3 月 14 日,韩国棋院表示 AlphaGo 实力不逊于李世石九段,授予 Alphago 韩国棋院名誉九段证书。AlphaGo 一战成名,要知道,多少棋手宵衣旰食也到不了九段。同年 12 月,强化版 AlphaGo 化名“Master”,在非正式网络快棋对战测试当中取得 60 战全胜。2017 年 5 月,与中国棋手柯洁九段对战,全取三分,虐哭柯洁。而且由于此次使用 Google 的 TPU,使得计算资源只有对战李世石时候的十分之一。要知道,柯洁可不是旁人,是当时世界第一,年纪轻轻,已经手握多项含金量高比赛的冠军,代表人类最高水平的棋手都无能为力,可见 AlphaGo 真的不是寻常之辈。赛后,中国围棋协会也授予了 AlphaGo 职业围棋九段的称号,棋圣聂卫平更是盛赞 AlphaGo 的水平相当于职业围棋二十段。赛后,DeepMInd 团队宣布 AlphaGo 退役,但相关研究不会停止。


作者 | 八宝粥

出品 | CSDN(ID:CSDNnews)

中国围棋协会授予 AlphaGo 中国职业围棋九段称号

DeepMind 团队为 AlphaGo 各个版本起了不同名字, 历数几代分别称为 AlphaGo 樊、AlphaGo李、AlphaGo Master,后来还推出了 AlphaGo Zero 和 Alpha Zero 等版本, AlphaGo Zero 及此后版本没有用到人类数据,通过和自己对战,训练三天即可实现极高胜率。在那之后,AlphaGo 团队独孤求败,淡出江湖。此后, DeepMind 在蛋白质折叠等方面也做出 AlphaFold 等令人瞩目的成就。

谁能想到,仅仅淡出了两年,DeepMInd 团队带着 AlphaGo 的后辈——— MuZero 新重出江湖。MuZero 通过自我比赛以及和 AlphaZero 进行比赛,利用多项常规和残局训练,实现了算法的升级突破。相关研究成果论文今年 12 月在国际顶级期刊 Nature 上发出(2019年,该文章在预印本平台发布)。如果此前 AlphaGo 版本是靠着机器学习和算力的一力降十会的话,此次的新算法就是双手互搏,无师自通,不光如此,MuZero 的 “魔爪”从围棋伸向了各个领域,包括国际象棋、日本的将棋和 Atari 电子游戏。你冬练三九夏练三伏,别人一出世就自带超强自学能力,而且人家全家输的次数屈指可数,还都是输给自己人,你说这比赛让人怎么打?

平心而论,再早之前 “深蓝”就已经深深伤过棋手们的心,各类智力比赛和游戏当中,围棋可以说是难度非常高的了,本以为围棋 324 格棋盘生出千万般变化能够守住人类的阵地,结果 AlphaGo 虐哭柯洁, Alpha Zero 还说 “我能自己学”,MuZero 说 “我能自己学,还不需要规则”,就像 AI 世界里的叶问,一个马步摊手,豪气发问:“我要打十个,还有谁?”

如果这次真的有人能上来对阵三招五式的话,可能也只有 AI 本身能对抗 AI了。或者像网友戏谑的那样,“不让他联网”、“拔他电源”。。。。那么 MuZero 到底是哪路神仙呢?我们一起来看一下:

来自 DeepMind 官网

从上图可以看出,随着技术的进化,需要的知识库(规则)逐渐减少,到 MuZero 直接没有了,而应用的领域却逐渐增加, 从围棋、将棋扩展到 Atari 游戏。

文章表示,MuZero 和此前的 Alpha Zero 代码相似,但是 MuZero 无法访问规则集合,而是将该规则替换成了搜索树状态神经网络,研究人员主要通过以下方法应对 AI 的挑战,超前搜索和基于模型的计划。超前搜索已经在国际象棋、扑克等景点游戏当中取得成功,但是依赖于游戏规则,这样的话,对于复杂世界和混乱的现实问题就没有办法,因为它们无法提炼成简化的规则;基于模型的系统旨在学习环境动力学的精确模型, 然后以此进行规划和学习。不过对于视觉丰富的环境当中依然没有竞争力。比如游戏 Atari 当中,最好的结果其实来自于无模型系统。

MuZero 使用另外的方法来克服此前方法的局限性, 它不是对整个环境建模,而是对代理的决策环境或者关键方面进行建模。DeepMInd 表示:毕竟,了解雨伞会使您保持干燥比对空气中雨滴进行建模更有用。

具体而言, MuZero 对三个元素进行建模,分别是值、策略、奖励。分别衡量了:当前位置好坏程度、最优策略以及上一步好坏的衡量。通过蒙特卡罗搜索树,配合动力学函数和预测函数,考虑下一步的动作序列,同时利用了和环境互动时候收集的经验来训练神经网络,在每一步当中保存之前的信息。这个似乎是一种无监督学习内的强化学习。其实它也不能说完全 “无规则”,它唯一的规则其实是我们在下棋当中常说的“走一步、看三步”,不管是什么游戏,它都给自己一个这样的规则。MuZero 就可以反复发使用学习的模型来改进计划,而不需要从环境当中重新收集数据。

从项目主要开发者 Julian Schrittwieser 的博客当中,我们还发现了一些有意思的内容。

来自 Julian Schrittwieser 博客

对于作者而言,这些也仅仅都是 “统计”而已,它是从 AlphaGo 和 Alpha Zero 当中集成的策略网络和价值网络,每一个网络都已经非常强大了,考虑策略网络,就能对于下一步有良好的预判,考虑价值网络,就能选择价值最高的行动,结合两者,当然就更完美了。

ps. 讲点你不知道的东西~

为什么给它取名叫 MuZero 呢?
很大程度上来自于日语发音,开发者 Julian 觉得这个和日语夢、以及無的发音相似(为什么不去学中文啊大哥!);另外他认为这个发音和希腊字母 μ 也很像。Zero 和此前一样,表示没有用到人类的数据。所以这个算法可以读作“木Zero”、"谬Zero"~不过开发者自己的发音是“谬Zero”。

这位小哥也很有意思,来自奥地利,对各种语言都很感兴趣,当然也包括一些开发语言。而且努力学日语中~

如果你对 MuZero 感兴趣, 不妨可以看看小哥博客里面推荐的文章 ,教你怎么利用 Python 搭建自己的 MuZero AI ,说不定也能用 AI 打败谁(比如街边下棋的大爷)。

从 AlphaGo 震惊围棋江湖以来,越来越多的 “唯人能赢”的游戏开始被 AI 染指,如果此前《星际争霸II》当中战胜人类选手还是算力的取胜,MuZero 双掌互搏就能增长内力、左脚踩右脚就能腾云这次真的是一次巨大的冲击。欢迎下方留言,下一个被 AI 虐哭的会是谁呢?

【参考资料】:

1.DeepMind 官方网站:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

2.论文链接:https://www.nature.com/articles/s41586-020-03051-4.epdf?sharing_token=EA_wFIVEyQh3dl98_9a6-dRgN0jAjWel9jnR3ZoTv0PMSWGj38iNIyNOw_ooNp2BWfDsqz5UnHQ44Ll88UHNBZcs7xTLPmM1RyXHjRA5n5otA0i6Ki3VMiPA4ux0oRPKRbJvg95aN_SHg0rJ4vyRbnX6EO3ELPTQnQmMgeuSmmU%3D

3.2019年预印版论文下载地址:https://arxiv.org/abs/1911.08265

4.开发者 Julian 的个人博客:http://www.furidamu.org/

程序员如何避免陷入“内卷”、选择什么技术最有前景,中国开发者现状与技术趋势究竟是什么样?快来参与「2020 中国开发者大调查」,更有丰富奖品送不停!

戳:https://bss.csdn.net/m/topic/dev_survey2020

 

 

Logo

20年前,《新程序员》创刊时,我们的心愿是全面关注程序员成长,中国将拥有新一代世界级的程序员。20年后的今天,我们有了新的使命:助力中国IT技术人成长,成就一亿技术人!

更多推荐