机器人抓取研究前沿及抓取的研究进展整体分析

机器人技术 2020-03-12 07:37www.robotxin.com机器人技术

前言

一年前我们曾探讨过Robot Learning的发展>>梳理 | 机器人学习(Robot Learning)的发展，那么经过近一年的发展，Robot Learning也有了很多新的进展，特别在Meta Learning上。不过今天我们先来专门探讨Robot Learning中的一个具体应用，也就是机器人抓取Roboc Manipulaon/Grasng。为什么专门考虑这个问题？因为这个是体现机器人智能目前最亟待解决的问题之一。

我们可以考虑一下家用机器人需要具备什么样的智能？可以说最主要就是要具备两方面的能力，一个是移动导航能力，另一个就是机械臂的抓取能力。所以像下图这个Fetch机器人其实就满足了家用机器人所需的硬件了。我们今天不谈移动导航的问题，只来谈谈机器人抓取这个问题的研究前沿。

对于机器人抓取，其实本身有很多研究的具体问题和方式，比如目前抓取No.1的系统是伯克利的Dex-Net 4.0，有兴趣的朋友可以看看这篇报道Exclusive: This is the most dexrous robot ever created，Dex-Net 并不是一个端到端的系统，它只是用来对抓取的位置进行估计，然后通过planning的方式来抓取，本质上是一个开环控制系统。这样的系统对于完全静态简单的物体是没问题，如果物体有阻挡，有改变，那这个系统就比较难处理了。所以，鉴于本专栏的偏好是通用人工智能AGI，我们在这里只想关注一种解决机器人抓取的方式，那就是

End-to-End Vision-Based Roboc Manipulaon 端到端基于视觉的机器人抓取

我们希望整个机器人抓取过程都是机器人自己学到的！这就非常近似于人类的行为！

那么有了这个主题，我们就来看看这方面的研究都有谁，基本上可以说就集中在两个团队

1）Google Brn Robocs团队

2) 伯克利Sergey Levine团队

除此之外，Deepmind，OpenAI，Stanford的Li Fei-Fei团队还有CMU的Abhinav Gupta团队有一些亮眼的研究，但并没有特别专注在Robotic Manipulation这个问题上。然后实际上Google Brain团队Sergey Levine也在其中，所以接下来我们看到的paper基本上都出自Sergey Levine之手！

Paper List

[1] Sadeghi, Fereshteh, et al. "Sim2real vie invariant visual servoing by recurrent control."arXiv preprint arXiv:1712.07642(2017).

[2] Riedmiller, Martin, et al. "Learning by Playing-Solving Spae Reard Tasks f Scratch."arXiv preprint arXiv:1802.10567(2018).

[3] Quillen, Deirdre, et al. "Deep Reinforcement Learning for Vision-Based Robotic Grasping: A Simulated Comparative Evaluation of Off-Policy Methods."arXiv preprint arXiv:1802.10264(2018).

[4] Haarnoja, Tuomas, et al. "Composable Deep Reinforcement Learning for Robotic Manipulation."arXiv preprint arXiv:1803.06773(2018).

[5] Fang, Kuan, et al. "Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision."arXiv preprint arXiv:1806.09266(2018).

[6] Kalashnikov, Dmitry, et al. "QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation."arXiv preprint arXiv:1806.10293(2018).

[7] Matas, Jan, Stephen James, and Andre J. Davison. "Sim-to-Real Reinforcement Learning for Deformable Object Manipulation."arXiv preprint arXiv:1806.07851(2018).

[8] OpenAI "Learning Dexterous In-Hand Manipulation" (2018).

上面这些paper大致是近一年来比较重要的和robotic manipulation直接相关的paper了，由于本人主要关注Sergey Levine团队的成果，可能会疏忽掉其他工作，如果有知友有好的相关paper推荐，欢迎在本文下留言，谢谢！

本文不打算具体的分析每一篇paper，而是从整体上对于目前机器人抓取的研究进展做一个整体的分析。

机器人抓取的研究进展整体分析

目前机器人抓取或者整个机器人学习的研究其实核心在于三个方面

1）算法层面

2）sim-to-real 从仿真到真实环境的迁移

3）应用层面

是算法层面，我们希望DRL算法在机器人抓取上能够有更高的效率，更快的学习速度，以及处理更困难的学习任务。在上面的paper list中，[3] 对多种DRL off-policy的算法进行评估，[6] 则使用其中一个算法在真实场景中做大规模的实验 [4] 则基于soft q-learning使得机器人具备更强的exption能力 [2] 则研究通过auxiliary reards 来处理复杂机器人学习任务中reard过于稀疏的问题。

接下来是仿真环境到真实环境的迁移问题。由于真实机器人实验不方便并且实验成本很高，使得从仿真迁移到真实成为一种几乎必然的选择（Google那种机器人农场的方法毕竟不是每个人都能干的），很多研究的重点都在于仿真到真实的迁移，比如[1] 通过多视角来研究sim2real [7] 则在仿真环境中研究非刚体的物体操作 [3] 提出来一个面向机器人抓取的仿真benchmark，对于机器人抓取的研究能够起到很大的促进作用。

是应用层面，大家不仅仅关注简单的普通的机器人抓取问题，也考虑更复杂的manipulation问题，也，有了[8] OpenAI 刚刚出炉的机器手玩方块的成果， [5][7]研究更复杂机器人抓取问题。

那么对于这三方面，到底有什么重要的研究进展呢？我们先来单独分析一下OpenAI这个最新成果.

3 Learning Dexterous In-Hand Manipulation

这两天OpenAI刚出来的成果，使用DRL实现机械手灵巧操作方块，虽然这个工作面向的不是抓取，方法论上是完全相同的，这篇文章对于机器人抓取问题具有很强的借鉴意义。

1）这篇文章的成果通过DRL算法PPO完全在仿真环境中训练机械手玩方块，将训练好的模型直接迁移到真实场景中取得成功，并且整个训练不带人类的演示demo，完全根据reard自学完成，而的实现效果竟然和人类的行为非常接近，很像人的操作。

2）取得如此成功的原因（1）高度仿真的系统，和真实环境非常接近，reality gap比较小（2）使用仿真环境随机化这个技巧来大幅度拓展仿真环境的范围，使得神经网络学习后能够适应各种场景，就包括真实场景了。这种随机化包含比如不同的摩擦力，不同的演示，不同的摄像头角度等等（3）大规模分布式并行训练，使用了几百台机器6144个来运行分布式仿真环境收集数据，然后用一台8的V100来训练模型，就像标题说的，等价于训练了100年.

3）启发（1）DRL能够通过学习学到传统非学习算法根本做不到的效果，端到端神经网络化必须是机器人的未来！（2）仿真环境超级重要，随着技术的发展，仿真肯定可以做的越来越好，这就意味的未来的机器人必然会是在仿真中进行训练的，成本低，速度快，何乐而不为。（3）大规模的计算能够直接弥补DRL sample inefficiency的问题，反正只要有足够的设备，一天训他原来要1年的东西，数据堆上去，就能做出来。

进一步分析

上一小节我们简单的分析了一下OpenAI这个很酷的工作，我们能得到的结论就是这更多的是工程上的胜利，而非算法上的胜利。算法依然是PPO，并没有实质性的变化。

同样的，之前Google在机器人抓取的重要进展[6]QT-Opt 将端到端机器人抓取的效果提升了一大截，我们具体分析它里面的算法就会发现算法上只是Q-Learning的一个变种，相比于DDPG，不使用Actor Netork，而通过进化算法CEM来获取actor，能够使训练更稳定，并且方便于做大规模分布式训练。

对于[6]和[8]，其实我们都发现大规模分布式学习对于性能提升的重要性，这也完全符合深度学习的情况，只要有数据和高性能计算，就能把性能堆出来。由于深度增强学习存在比监督学习大的多的sample inefficiency问题，所以实际上深度增强学习要能ork，需要的数据量会比监督学习如image还要大的多。也，我们看到AlphaGo，OpenAI的机器手，OpenAI的Dota，都动用了巨量的计算资源。一个小小的机器手，却使用了6144个CPU和8个V100 GPU来训练，这也是非常空前的事情。

下一步呢？

有两点是非常容易预测的

1）未来必然会出来更多更好的仿真环境。这一年来的研究可以说就是比较明确的肯定仿真直接迁移到真实环境的可行性，那么就没有理由更进一步的去开发更真实的仿真环境。

2）更快更强的分布式学习系统。这个就更不必说了，这是推动机器人学习进展的燃料。

有了上面这两点，即使保持现有的算法不变，我相信都可以训练出比现在更强或者更复杂的机器人学习成果，端到端基于视觉的机器人抓取直接推到99%以上的准确率是完全可能的，这就趋于商用了。

那么算法层面又该如何发展呢？

我们需要更复杂任务Task的牵引。比如我们需要双机械臂的协作抓取，这就涉及到multi-agent robot learning。比如我们需要机器人能够完成一个更长的任务系列，这需要Hierarchical Reinforcement Learning的研究。比如我们需要机器人能够完成多个任务，那这就需要multi task learning。比如我们希望机器人的generalization能够更强，能够处理没看过的物体，那么这就需要Meta Learning的研究，那么这块现在特别火了。比如我们需要机器人能够快速的学习新任务，这就需要Continual Learning，Meta Learning，如果是要求通过模仿学习来实现，那就需要imitation learning。

这里我推荐大家可以阅读第一届CoRL整理出来的问题，从这里我们反而会觉得现在的Robot Learning真的是刚刚开始，现在研究的问题也太过于简单了。

https://docs.google./document/d/1biE0Jmh_5nq-6Giyf2sWZAAQz23uyxhTob2Uz4BjR_/edit

现在到了2018年才有了一个机器人抓取的benchmark，未来相信会有更多的benchmark出现来推动这个领域的发展。

https://docs.google./document/d/1biE0Jmh_5nq-6Giyf2sWZAAQz23uyxhTob2Uz4BjR_/edit

小结

本文没有详细的分析每一篇paper的具体idea，而是比较宽泛的分析机器人抓取及机器人学习的整体研究进展。，对于机器人抓取这个具体问题，从工业应用上看将可以很快看到落地，要在仿真系统研发上推，在大规模分布式学习上推，核心确实在于工程实现上。而对于学术研究，最关键的是去定义新的task，新的benchmark，从而在新task的基础上去推动算法层面和应用层面的发展。

技术专区

上一篇：如果机器人向你求饶，你会对机器人心软吗下一篇：Vector聊天机器人：小巧但却很有个性，可随时与

机器人抓取研究前沿及抓取的研究进展整体分析

前言

机器人抓取的研究进展整体分析

进一步分析

有两点是非常容易预测的

那么算法层面又该如何发展呢？

小结

技术专区

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

机器人抓取研究前沿及抓取的研究进展整体分析

前 言

机器人抓取的研究进展整体分析

进一步分析

有两点是非常容易预测的

那么算法层面又该如何发展呢？

小结

技术专区

机器人技术

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

前言