谷歌AI又有新动作,MuZero要帮YouTube抢地盘了!
不曾想,才短短两周时间过去,DeepMind最新的AI程序MuZero又有了新进展,它可以在游戏或任务中获得“超人性能”,无需了解规则便可快速掌握该游戏或疑难任务。尤其在视频压缩领域的编码方式上,有了惊人的进展。
位于伦敦的DeepMind,早在2019年11月19日就发布了MuZero的详细信息,但一直等到《自然》杂志上的论文发表后,才真正开始了视频压缩方面的讨论。
像研究中心早期的其他人工智能一样,MuZero精通围棋,国际象棋,将棋和标准Atari电子游戏的数十种玩法。它的算法跟AlphaZero类似。
与AlphaZero不同,MuZero必须自己制定规则。它将AlphaZero在国际象棋和将棋中的表现相匹配,改进了围棋中的表现,并创造了新的世界纪录。它还通过掌握57种Atari游戏中的街机学习环境、复杂的视觉领域等方面,改进了现有技术。
说是算法类似,实质上,MuZero直接使用了来自AlphaZero代码,并共享其设置搜索超参数的规则。但两者确实是有一些不同的。
AlphaZero的计划过程是使用知道游戏规则且必须由人明确编程的模拟器,和预测未来位置的政策价值。并且,AlphaZero在对搜索树中的状态转换进行建模,在每个节点上可用的操作以及树的分支终止时,都使用了游戏规则相关的全面知识。
而MuZero却无法访问完美的规则集,甚至对规则一无所知。它将这个规则集替换成用于搜索树状态转换建模的学习型。
MuZero和AlphaZero的不同还表现在游戏模型方面。
AlphaZero有一个单一的从棋盘状态到预测的游戏模型;MuZero则具有用于表示当前状态和状态动态的单独模型,以及基于状态表示对未来头寸的政策和价值的预测。
MuZero的隐藏模型比较复杂,可能会在其中隐藏计算;在成功训练的MuZero实例中探索隐藏模型的细节可能是未来探索的主要途径和方向。
AlphaZero专为可能赢,平或输的两人游戏而设计。而MuZero的目标不是在两人游戏中全力以赴并分出胜负,它更适用于标准的强化学习方案,包括具有连续中间奖励的单主体环境。
在不使用规则的情况下,MuZero主要是通过自我比赛,以及与AlphaZero比赛,进行多项常规或残局训练。经过训练的算法虽然使用与AlphaZero相同的卷积和残差算法,但搜索树中每个节点的计算步骤减少了20%。
所以,MuZero是AlphaZero算法的高性能计划与无模型强化学习方法的结合。这种组合可以在经典计划体制中进行更有效的训练,比如围棋;还可以处理每个阶段的输入复杂领域,比如视觉视频游戏。
DeepMind的首席研究科学家David Silver在接受外媒BBC的采访中提到,现实世界混乱而复杂,没有人会给他们提供有关其工作原理的规则手册。随即又强调称,人类有能力制定下一步的计划和策略。
David Silver说他们第一次真正拥有了一个系统,能够对世界的运作方式建立自己的理解,并利用这种理解来进行复杂的前瞻性计划,就像以前在象棋这样的游戏中所见过的。
David Silver夸赞MuZero可以从零开始,仅通过反复试验就可以发现世界规则,并使用这些规则来实现某种超人的表现。
英国南安普敦大学计算机科学教授,政府AI理事会成员Wendy Hall表示,DeepMind的工作成果令人震惊,这项工作标志着“向前迈出了重要的一步”。
Wendy Hall也提到了一个顾虑尽管DeepMind团队不断努力改善算法的性能并应用结果以造福社会,但他们并未花太多精力思考工作可能带来的意外后果。
她补充道,“我不认为喷气发动机的发明人在发明时便在考虑全球污染的问题。所以我们必须在AI技术的发展中取得一些平衡。”
,MuZero代表了DeepMind公司在深度强化学习方面的最新成功。该技术使用多层,让机器通过反复试验的过程来自学新技能,获得成功的“奖励”,而不是被告知要做什么。
目前,MuZero已经投入实际使用,正在寻找一种全新的视频编码方式,这可能会大大降低谷歌旗下的YouTube视频网站的技术成本。
人工智能培训
- 真正能和人交流的机器人什么时候实现
- 国产机器人成功完成首例远程冠脉介入手术
- 人工智能与第四次工业革命
- 未来30年的AI和物联网
- 新三板创新层公司东方水利新增专利授权:“一
- 发展人工智能是让人和机器更好地合作
- 新春贺喜! 经开区持续推进工业互联网平台建设
- 以工业机器人为桥 传统企业如何趟过智造这条河
- 山立滤芯SAGL-1HH SAGL-2HH
- 2015国际智能星创师大赛火热报名中!
- 未来机器人会咋看人类?递归神经网络之父-像蚂
- 成都新川人工智能创新中心二期主体结构封顶
- 斯坦德机器人完成数亿元人民币C轮融资,小米产
- 到2020年,智能手机将拥有十项AI功能,有些可能
- 寻找AI机器人的增长“跳板”:老龄化为支点的产
- 力升高科耐高温消防机器人参加某支队性能测试