新型AI系统 能教会机器人自动走路
“深度强化学习可以用于自动获取一系列机器人任务的控制器,从而实现对策略的端到端学习,将感官输入信息映射称低级动作。”该论文的作者表示。“如果我们能在现实世界中直接从零开始学习移动步态,原则上就能获得最适合每个机器人甚至不同地形的控制器,从而有可能实现更好的灵活性和效率。”
这种设计有两方面的挑战。强化学习是一种人工智能训练技术,它使用奖励或惩罚来驱动个体朝着目标前进。强化学习需要大量的数据,在某些情况下需要数万个样本,才能取得良好的结果。在美国决定其结构的参数通常需要进行多次训练,这可能会随着时间的推移对机器人的机械腿造成伤害。
论文作者表示“深度强化学习可以被广泛应用于仿真中学习运动策略,甚至将其应用于现实机器人,但这不可避免地会由于仿真中的差异而导致性能损失,而且需要大量的手工建模。事实证明,在现实世界中使用这种算法具有非常大的挑战性。”
为了知道一种方法,研究人员表示可以让系统在不进行模拟训练的情况下学习运动技能。他们采用了一种被称为“最大熵RL”的强化学习框架。最大熵RL优化了学习策略,使期望收益和期望熵(即被处理数据的随机性度量)都达到最大值。RL中,人工智能代理人通过从政策中取样并获得奖励,不断地寻找行动的最佳路径,包括状态行动的轨迹。最大熵RL激励政策进行更广泛的探索,一个参数比如温度,决定了熵相对于奖励的相对重要性,决定了它的随机性。
但它不全是好处,至少一开始不是。由于熵与奖励之间的权衡直接受到奖励函数规模的影响,反过来又会影响学习速率,通常需要根据环境调整比例因子。研究人员的解决方案是自动化温度和奖励量表的调整,部分方法是在两个阶段之间交替进行,数据收集阶段和优化阶段。
结果很明显,在OpenAI (一个用于训练和测试AI代理的开源模拟环境)进行的实验中,作者的模型在四个连续运动任务中实现了“几乎相同”或比基线更好的性能。
在另一个真实世界的测试中,研究人员将他们的模型应用于一个四足微型机器人,这是一个有八个执行器的机器人,一个测量电机角度的电机编码器,以及一个测量方向和角速度的惯性测量单元(IMU)。
他们开发了一个由1个计算机工作站组成的流水线,该工作站更新,从Minitaur下载数据,并上传最新的策略;机器人上搭载的英伟达Jetson TX2执行上述策略,收集数据,并通过以太网将数据上传到工作站。两小时内,他们用一种奖励前进速度、惩罚“大角度加速度”和俯仰角的算法,机器人走了16万步,成功地训练了这架小型在平坦的地形上行走,越过木块等障碍物,爬上斜坡和台阶,而这些动作在训练时都没有出现。
研究人员表示“据我们所知这个实验是一种深层强化学习算法的首个例子,这种算法可以在没有任何模拟或训练的情况下,直接在现实世界中学习驱动力不足的四足运动。”
机器人技术
- 800多家中国机器人企业近半无产品
- 看看机器人在和你抢什么
- 马化腾、李彦宏等科技企业大佬们在贵阳大数据
- 机器人投入汽车产业园 探索机器人产业链
- 特斯拉 Cybertruck 电动皮卡换上黑色外衣,有望为
- 沁峰如何成为冲压机器人细分赛道国家专精特新
- 运动机器人智障了吗?
- Rivian 将投资 50 亿美元在佐治亚州建造电动汽车工
- 调查发布 - 制造业在疫情防控常态化下突围——
- 未来工业机器人的市场什么样的变化
- 进博会特斯拉展台最全预测 沉浸式体验智能制造
- 美国将中国电动汽车关税提高到 100%,极星 CEO 对
- DeepMind 联合创始人:交互式 AI 才会“改变人类”
- 把握发展趋势 推动机器人产业高质量发展
- AI入侵教师职业,这五类产品发展迅猛
- 他们用AI和食用植物创造“人工肉食”,你想尝尝