Nature收录DeepMind“四代AlphaGo”论文

工业机器人 2021-06-01 09:04www.robotxin.com工业机器人教育
12 月 23 日,DeepMind 在官网发表博文 MuZero: Mastering Go, chess, shogi and Atari ithout rules,并详细介绍了这款名为 MuZero 的 AI 算法。

“爷爷” AlphaGo 提供了人类知识(Human Knoledge)和规则(Rules),因可训练出一个大的策略树,来完成搜索、以及帮助做出决策;

“爸爸” AlphaGo Zero 去掉了人类知识部分,而是只给 AI 提供规则,然后通过自我博弈,就能学习出自己的策略;

“孙儿” AlphaZero 则可通过完全信息,利用泛化能力更强的强化学习算法来做训练,并学会不同的游戏,如围棋、国际象棋和日本将棋。

“重孙” MuZero 则是前级阶段的升级版,即在没有人类知识以及规则的情况下,,它能通过分析环境和未知条件(Unknon Dynamics),来进行不同游戏的博弈。

Muzero 有望成为广泛使用的强化学习算法

DeepMind 攻克的第一个游戏就是 Atari,因为 Atari 是基准线,能测出算法到底是否管用。传统的强化学习,学习的是 Agent (智能体),而MuZero 对下棋规则(Environment )也做了建模, 与此它还能学会规则,这就是它的最大创新。但从角度来看,无非就是搜索空间变得更大,所以计算量会大大增加,理论上仍旧是强化学习。

对于其进步,重庆大学汽车工程学院副教授王科评价称“Muzero 是目前强化学习领域里程碑式的工作。人类世界中的规则随时在变化,那么显然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潜力成为广泛使用的强化学习算法。”

对于它的应用前景,另一位论文共同作者、DeepMind 算法工程师 Thomas Hubert 告诉媒体说“目前,我们正在尝试将 MuZero 用于优化视频压缩。”

除优化视频压缩之外,MuZero 的潜在应用还包括技术和医药生物研究领域里的蛋白质设计,比如设计一款基于蛋白质的作用于特定病毒、或细胞表面受体的药物。

王科向 DeepTech 重点展望了 MuZero 可能在领域的应用“Muzero 作为 DeepMind 最新 AI 算法,具备了一定的类人成长和学习能力。”他以汽车举例称,目前的汽车离实现 L5 级完全还很远,还都需要在 ODD(Operational Design Domain)即运行设计域中运行,其原因是当前汽车技术无法应对未知开放环境带来的挑战,相信 MuZero 强大的学习能力和规划能力,能在一定程度上推动包括汽车在内的很多领域的进步。”

文章部分素材源自DeepTech

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by