金准数据 DeepMind机器人控制:端到端地学习视觉运动策略
前言:
近日,斯坦福大学和DeepMind的研究团队推出了一种全新的学习方法,用于训练机器人的深度视觉运动策略。这一方法结合了强化学习和模仿学习,生成了高效的强化学习智能体。该智能体在处理众多视觉运动任务时表现出卓越的性能,相较于单纯使用强化学习或模仿学习的智能体,其表现更为突出。
深度强化学习在多个领域都取得了令人瞩目的成绩,其中包括视频游戏和围棋。对于机器人技术而言,强化学习结合神经网络这一强大的函数逼近器,为我们提供了一个构建复杂控制器的通用框架,这种控制器以人力难以完成。强化学习在机器人控制领域的应用历史悠久,早期常常与低维动作表示结合使用。近年来,基于model-based和model-free技术的深度强化学习在机器人控制方面取得了众多成功案例,这些案例不仅体现在模拟环境中,也在实际硬件上得到了验证。使用model-free技术端到端地学习视觉运动控制器来执行长跨度、多阶段控制任务仍然面临巨大挑战。
开发RL机器人智能体需要克服诸多难题。机器人策略必须将来自带噪传感器的多模态、部分观测数据转化为具有一定自由度的协作活动。现实任务通常具有丰富的接触动态,随着多个维度(如视觉外观、位置、形状等)的变化,对泛化能力提出了更高的要求。
针对这些挑战,研究者提出了一种model-free的深度RL方法,直接从像素输入出发解决众多机器人控制任务。本文的关键洞察包括:1)利用少量的人类演示数据来减少在连续域执行探索的难度;2)在训练过程中采用多种新技术,以加速并稳定多阶段任务中的视觉运动策略学习;3)通过增加训练条件的多样性来改善泛化性能。这些策略在系统动态、目标外观、任务长度等发生显著变化的情况下依然能够稳定运行。这一方法的推出,无疑为机器人技术的进一步发展打开了新的大门。探索前沿:机器人学习的创新之旅
在科技的浪潮中,研究者们乘风破浪,为我们揭示了机器人学习的新境界。他们不仅展示了一种新方法在两项任务上的卓越成果,更实现了仿真训练策略向真实机器人的zero-shot迁移。这不仅是技术的飞跃,更是迈向智能生活的一大步。
面对机器人学习的挑战,本论文的研究者们融合模仿学习和强化学习,构建了一个统一的训练框架。这一创新方法巧妙地利用演示数据:通过混合奖励,将任务奖励与模仿奖励相结合;利用演示轨迹构建状态的课程,以初始化训练中的episode。这一创新举措成功解决了六个单凭强化学习或模仿学习都无法完成的任务。
为了避免真实硬件的训练限制,研究者们采用了sim2real范式,效果惊人。他们通过物理引擎和高通量RL算法,模拟机器人手臂的平行副本,在一个接触丰富的环境中执行复杂的物理交互。这不仅消除了机器人安全和系统重置的实际问题,还利用了一些新技术,如不同模式下的学习策略和价值、以对象为中心的生成对抗模仿学习、可视化辅助模块技术等,这些技术可以稳定和加速策略学习,为真实系统条件下的特定任务提供助力。
为了提升机器人的适应性和学习速度,研究者们还将训练条件多样化,包括视觉外观、对象几何和系统动力学。这不仅提高了对不同任务条件的概括能力,也大大加速了从模拟到现实的转换。
整个机器人学习过程,如图1所示,研究者使用3D运动控制器收集人类演示的任务,然后利用强化学习和模仿学习模型,结合这些演示数据在模拟物理引擎中进行学习。每一步都是技术的精进,每一刻都是创新的汇聚。
2. 相关研究探秘
强化学习方法在低维度的策略模型中展现出了强大的应用能力,无论是解决模拟还是现实世界的控制难题,都可见其身影。想象一下,移动元模型只是其中的冰山一角。在连续控制问题上,三大RL算法崭露头角:引导策略搜索方法(GPS)、基于价值的方法(如确定性政策梯度DPG或归一化优势函数NAF),以及信任区域策略优化(TRPO)和近端策略优化(PPO)。其中,TRPO和PPO因其超参数设置的稳健性和可扩展性而备受瞩目,尽管样本效率不足使其无法直接对机器人硬件进行训练。
GPS已被众多研究者如Levine、Yahya和Chebotar等人所青睐。在网络预训练阶段后,它直接在真实的机器人硬件上学习visuomotor策略。Gupta和Kumar等人则使用GPS作为机器人手模型的学习控制器。基于价值的方法同样大放异彩。例如,Gu等人使用NAF直接在机器人上学习完成开门任务,Popov等人则展示了如何使用DPG的分布式变量解决复杂的堆叠问题。
为了应对数据需求,一种策略是在模拟环境中进行训练,然后将学习的控制器迁移到真实的硬件上,或者使用合成数据增强现实世界的训练。想象一下Rusu等人研究的Jaco机器人手臂的简单视觉运动策略,他们使用进步网络将其成功转移到现实中。Viereck等则依靠深度技术来缩短现实差距。Tobin等人巧妙地利用视觉变化来学习能够传输到现实的健壮目标检测器;而James等则将随机性与引导性学习相结合。Bousmalis等则使用模拟数据增强训练,使其掌握对各种形状的预测能力。
在通过演示学习操作任务时,我们常常需要一种与演示相一致的状态和操作空间的方法。我们的方法却独树一帜,它致力于学习端到端的可视化策略,并不依赖于演示操作。我们的方法具有独特的优势,它可以利用演示的过程,即使原始的演示动作是未知的或由不同的身体产生的。Pinto和Peng强调模拟到现实的转换过程中,应关注随机化的视觉表象和机器人的动力学。Pinto等人也使用了视觉输入来执行不同的任务,通过末端执行器的位置控制来实现。这些研究为我们模型的构建提供了技术基础。值得注意的是,我们的工作是在并行工程开发之外,将几种新技术巧妙地集成到一个连贯的方法中。实验结果表明,这些组合技术的协同作用带来了出色的性能。
接下来介绍我们的模型。本研究旨在让机器人学习深度视觉运动策略,以完成控制任务。该策略结合了RGB摄像头的观测结果和本体特征(描述关节位置和角速度)向量。这两种感官模态在真实机器人上同样适用,因此我们在仿真环境中进行训练,并将习得的策略直接迁移到机器人上。图2展示了模型的概览。
我们的深度视觉运动策略使用了卷积神经网络来编码观测像素,同时采用多层感知机来编码本体特征。这两个模块的特征被结合起来,并输入到循环LSTM层中,最终输出关节速度(作为控制)。整个网络以端到端的方式进行训练。
为了提升视觉运动技能,我们的模型基于生成对抗模仿学习(GAIL)和近端策略优化(PPO)进行扩展。图2中,模型的核心部分清晰地展示出来,它采用摄像头观测结果和本体特征作为输入,输出为下一个关节速度。通过这种方法,机器人能够基于视觉信息做出运动决策,从而实现更加智能和自主的控制。在本次实验中,我们展示了一种灵活的学习框架,该框架能够应用于视觉运动策略学习。为了评估其性能,研究者在六个不同的控制任务中进行了深入的实验(如图3所示)。图3中的左侧三列展示了这六项任务在仿真环境中的RGB图像,这些图像反映了输入视觉运动策略的实际像素观测。而右侧一列则展示了真实机器人在执行两项色块任务时的表现。
我们还通过图4展示了实验的一个重要成果。在图4中,我们将episode的平均返回值表示为训练迭代次数的函数。可以清晰地看到,我们的完整模型在六项任务中均达到了最高的返回值。这一结果充分证明了我们提出的强化与模仿学习模型的高效性。
该视频包含了实验的定性结果,可以更加直观地展示我们的模型在各项任务中的表现。我们在所有的实验中使用了相同的网络架构和超参数,除了一个参数λ之外。这一设置保证了实验的公正性,让我们能够更准确地评估模型在各种不同任务中的性能。
图 5. 模型分析在堆叠任务中的展现。左图揭示了从全模型中移除单一组件对性能的具体影响,而右图则展示了模型对超参数λ的敏感性,λ用于平衡强化学习与模仿学习的贡献。
在图 5a 中,研究者通过各种配置训练智能体,从单一修改到全面修改模型。研究结果显示,这些缺失可分为两类:一类是学会堆叠的智能体,其平均返回值超过400;另一类则是仅学会提升的智能体,其平均返回值在200至300之间。这表明混合的RL/IL奖励以及以目标为中心的鉴别器特征在习得优秀策略的过程中起到了关键作用。
图 5b 描绘了当λ值在0.3至0.7之间变化时,模型的表现情况。这个范围内的λ值变化提供了强化学习(RL)和生成对抗模仿学习(GAIL)奖励之间的平衡混合。
本文介绍了一种通用的无模型深度强化学习方法,它能够从RGB摄像机图像和关节速度控制中学习各种操作策略。我们的方法融合了演示内容,通过生成的敌对模仿学习和无模型的强化学习,实现了对不同任务的有效学习和强大的泛化能力。该方法能够结合状态轨迹(无演示动作)和鉴别器所见的部分/特征化演示,从而简化了数据收集过程,提高了灵活性,并促进了在没有执行条件(例如,通过动作捕捉的人演示程序)下的泛化。令人瞩目的是,我们仅在不到30分钟的时间内,通过模拟手臂的远程操作收集了演示数据。
为了挖掘机器人技术的潜力,我们需面对现实世界中的全面变化,包括物体外观、系统动态、任务语义等。我们的重点放在了学习控制器上,以应对多维度的任务变化。为了更好地泛化学习策略,我们通过参数化、程序生成的3D对象和随机系统动力学来增强训练条件的多样性。这导致我们的策略在模拟和现实世界之间存在领域不一致的情况下,以及在模拟的大变化中表现出了稳健性。
仿真在我们的方法中处于核心地位。在仿真环境中进行的训练可以解决许多机器人技术的实际挑战,如获取用于奖励的状态信息、高样本复杂性和安全考量等。仿真训练还允许我们使用模拟状态来促进和稳定训练过程(即通过向值函数提供状态信息)。在我们的实验中,这对于学习视觉运动策略至关重要。尽管我们的方法在培训过程中利用了特定信息,但它最终产生的策略仅依赖于手臂的视觉和本体感受信息,因此可应用于真实的硬件上。
在真实的机器人上执行这些策略时,我们发现模拟和真实硬件之间仍存在相当大的领域差距。转移过程会受到视觉差异、手臂动力学和环境物理性质的影响,导致在真实机器人上运行时性能有所下降。我们在现实世界中进行的实验已经证明,采用强化学习训练的策略进行像素到关节速度的控制,可以实现初步的sim2real传输成功。
我们已经验证,结合强化学习和模仿学习可以显著提高我们训练系统的能力,使其能够解决具有挑战性的灵巧操作任务。我们的方法实现了机器人技术学习流水线的三个阶段:首先收集少量演示数据以简化探索问题;其次依赖物理仿真进行大规模的分布式机器人训练;最后进行sim2real传输以应用于现实场景。未来的工作中,我们致力于提高学习方法的样本效率,并利用实际经验来缩小政策转移的现实差距。
机器人技术
- 800多家中国机器人企业近半无产品
- 看看机器人在和你抢什么
- 马化腾、李彦宏等科技企业大佬们在贵阳大数据
- 机器人投入汽车产业园 探索机器人产业链
- 特斯拉 Cybertruck 电动皮卡换上黑色外衣,有望为
- 沁峰如何成为冲压机器人细分赛道国家专精特新
- 运动机器人智障了吗?
- Rivian 将投资 50 亿美元在佐治亚州建造电动汽车工
- 调查发布 - 制造业在疫情防控常态化下突围——
- 未来工业机器人的市场什么样的变化
- 进博会特斯拉展台最全预测 沉浸式体验智能制造
- 美国将中国电动汽车关税提高到 100%,极星 CEO 对
- DeepMind 联合创始人:交互式 AI 才会“改变人类”
- 把握发展趋势 推动机器人产业高质量发展
- AI入侵教师职业,这五类产品发展迅猛
- 他们用AI和食用植物创造“人工肉食”,你想尝尝