用动作捕捉技术建立人形机器人的数据工厂
近期,备受瞩目的2024世界机器人大会在北京盛大开幕。在这个充满创新与激情的舞台上,诺亦腾公司的联合创始人兼首席技术官戴若犁博士受邀参加了一个特别的论坛——人机融合:共创具身智能机器人新时代青年精英论坛。他在这场论坛上,以饱满的热情和深厚的专业知识,发表了主题演讲《用动作捕捉技术构建具身智能数据工厂》。
戴若犁博士的演讲,仿佛一场知识与智慧的盛宴。他首先分享了过去一年里,诺亦腾在机器人领域取得的显著进展,特别是其动作捕捉产品在机器人领域中的销售比例的大幅增长。这一令人瞩目的成绩,也促使诺亦腾深入研究机器人行业,并发现该领域对高质量人类动作数据的需求正在迅猛增长。
演讲中,戴若犁博士以富有洞察力的视角,深入探讨了动作捕捉技术与具身智能机器人领域的紧密联系。他详细阐述了诺亦腾在具身智能机器人解决方案方面的工作流程,并着重强调了人体与机器人本体之间的映射在整个流程中的重要性和挑战性。他还对比了四种主流的机器人数据集生产方式,清晰地展示了它们之间的差异。
在演讲的高潮部分,戴若犁博士通过介绍诺亦腾与行业内合作伙伴的落地案例,再次强调了建立大规模具身智能数据工厂的重要性与可行性。他的演讲内容生动、深入浅出,不仅展现了诺亦腾在具身智能人形机器人领域的实力与决心,也激发了在场观众对这一领域的兴趣和热情。
图注:站在舞台中央的戴若犁博士,以他的智慧和激情,为观众呈现了一场精彩的演讲。他的每一句话都充满了力量,让人感受到他对机器人技术的热爱和对未来的期待。他的身份是诺亦腾的联合创始人兼首席技术官,他的演讲为我们揭示了诺亦腾在具身智能机器人领域的最新进展和深远布局。感谢大家的聆听。在开始介绍动作捕捉这一概念之前,我想先和大家简单分享一下我们的主题。动作捕捉,简单来说,就是通过一系列技术手段,将人类复杂的动作转化为数字信息。这一过程并不容易,因为人的动作涉及众多维度和时间变化,需要通过计算机视觉、传感器等先进工具,结合复杂的数学算法来实现。
关于动作捕捉与机器人的关联,尤其是人形机器人,我们不得不提到位于北京的诺亦腾公司。作为一家在动作捕捉领域耕耘了十二年的国家级专精特新小巨人企业,我们一直在密切关注机器人领域的发展。虽然过去机器人并非我们的主要市场,但近一年来的变化令人瞩目。机器人领域的合作需求激增,相关营收数字更是实现了惊人的增长。这让我们意识到,数字化的人类动作在机器人领域有着巨大的应用价值。
接下来,我想重点介绍一下动作捕捉在具身智能领域的五个应用方向。通过对机器人应用领域进行深入调研,我们发现人形机器人领域的客户主要在以下五个方面应用诺亦腾的动作捕捉设备:
首先是遥操作(Teleoperation)。这是一种通过身体或手指来远程控制机器人的技术。结合动作捕捉设备,人类操作者可以更加真实、灵活地操控机器人,实现远程存在(Telepresence)。想象一下,操作者通过精确的动作捕捉,将自己的动作转化为机器人的行动,这无疑为许多需要远程操作的场景带来了极大的便利。
这五个应用方向不仅展示了动作捕捉技术的广阔前景,也证明了诺亦腾在动作捕捉领域的专业性和领先性。我们期待与更多机器人领域的合作伙伴共同探索,共同推动动作捕捉技术的发展,为人类的未来创造更多的可能。在人类与机器人协同工作的未来图景中,动作捕捉技术发挥着至关重要的作用。想象一下,在诺亦腾的早期,像早稻田大学背景的TokyoRobotics这样的公司已经开始利用诺亦腾的动作捕捉设备进行遥操作任务。在疫情期间,它们通过远程巡检和数据中心服务器维护等任务,展示了动作的精准同步与传输。更有智利的一家企业,巧妙利用诺亦腾的动捕遥操作机器人在火山口采集样本,展现了机器人技术的无限可能。
在这一环境中,动作捕捉技术不仅帮助机器人更好地融入人类的生活环境,与其并肩完成任务,而且能够对任务的完成情况进行实时监测。想象一下,你可以亲自示范如何操作机器人,每一个动作都能被捕捉到并映射到机器人上,这就是所谓的机器人示教。通过大量的示教数据训练机器人,即使在智能尚未成熟的阶段,也能让它们学习如何主动执行任务。这种Human Demonstration的方法在机器人领域已经是一种非常成熟且有效的教育方式。
以上这些应用都属于人在回路(Human-in-the-loop)的范畴,对于提升具身智能机器人的智能水平来说至关重要。特别是在机器人示教与训练数据采集方向,如果能将这一路径规模化,如同建立数据工厂,将会带来更大的收益和可能性。
数字孪生与高精度量测的能力在机器人研发的验证环节也至关重要。机器人并非理想的刚性体,在执行任务时会出现形变。在大规模训练数据采集流程中,实现对大空间、多目标的实时量测,获取机器人的高精度姿态与运动轨迹,将有助于研究人员发现并及时修正本体存在的问题。
最终,通过采集并标注海量的真实行为数据,建立起通用的数据集,为机器人训练提供有力支持。可以预见,规模化这一路径将带来明确的预期收益,推动机器人在未来与人类的协同工作中发挥更大的作用。在这个充满无限可能的未来,人类与机器人的协同工作将开启新的篇章。遥操作的非凡意义:从挑战到机遇的跃迁
遥操作,一个在传统意义上用于恶劣或人力不可达环境中的技术术语,如今正逐渐在科研领域展现其全新的价值。众多科研工作者开始利用遥操作技术收集数据,为机器人训练提供丰富的资源。
以Tesla等智能车企业为例,它们生产的汽车实质上就是一种遥操作设备。人类通过智能载具在真实环境中完成运载任务,每一步操作都为智能系统积累了宝贵的经验。遥操作的智能运载机器人与L5级别的自动驾驶目标紧密相连,但在通往这一目标的道路上,我们需要大量的数据信息作为智能提升的“原材料”。
值得一提的是,诺亦腾作为动作捕捉领域的佼佼者,其技术与经验在遥操作领域具有广泛应用。例如,智元机器人通过诺亦腾动作捕捉系统,实现了机器人A2的遥操作控制。这一技术合作不仅深化了两家企业的合作,更为智能算法的提升开辟了新的路径——“Sim2Real”。智元研究院的姚卯青院长对动作捕捉遥操作路径寄予厚望,认为其在智能算法提升方面拥有巨大潜力。
在遥操作的领域里,sensing(动作捕捉)和actuating(机器人本体)的协同合作是打造流畅、高效流程的关键。诺亦腾及其合作伙伴,智元机器人研究院的执行院长姚卯青指出,动作捕捉系统以其捕捉多关节、丰富数据的能力,相比其他依赖算法IK逆向解算的动作采集方式,展现了更大的便利性和稳定性,确保了信息量的充分。该系统原生支持对灵巧手和全身运动的捕捉,为人形机器人开拓了更多应用场景的可能性。
与此另一合作伙伴千寻智能机器人,已经采用诺亦腾的动作捕捉系统进行遥操作控制。两家公司在动捕遥操作具身智能机器人的探索道路上,共同追求高效率、高精度的操作流程和数据产出。
韩峰涛,千寻智能的创始人兼CEO,以及拥有在工业机器人/协作机器人领域丰富的量产交付经验的团队,对从科研到实用、从样机到产品的过程表示深深的敬畏。诺亦腾在全球市场上拥有超过十年的商业化成功经验并处于领先地位。两位“老司机企业”的联手合作,无疑将推动机器人遥操作的产品化落地达到新的高度。
动作捕捉系统的优势在于其能够捕捉多关节和丰富数据的能力,这使得人形机器人在更多应用场景下成为可能。在这次大会上,许多企业都在研发过程中采用遥操作方式,在机器人自主性尚不完全满足需求和数据不足的情况下,积累数据成为了首要任务。这一领域的发展前景令人充满期待。诺亦腾:以动作捕捉技术赋能具身智能领域
作为动作捕捉技术的领先厂商,诺亦腾在具身智能人形机器人领域如何为客户提供卓越服务呢?
我们的服务始于动作捕捉这一核心子系统。在这一环节,我们追求高精度、低时延、高质量、高频率的人类动作数据采集与记录。我们的目标是捕捉每一个细微的动作,确保数据的真实性和完整性。
紧接着,我们运用自身积累的专业知识,完成一套数据处理与输出的闭环。这个闭环能够将采集到的原始信息转化为精确的人体动作数据。值得一提的是,诺亦腾在这方面的经验已经历了长达12年的积累,为各行各业的客户提供了优质服务。
有一个常被本体厂商忽视的关键点:人的“本体”与机器人本体之间存在本质差异。以人的肩膀为例,它是一个拥有三自由度的球头结构,而大多数人形机器人的肩部则是由三个独立的单自由度电机构成。
在本体映射这一环节,我们面临着巨大的挑战。直接将人的动作输出给机器人是行不通的,我们需要根据机器人的构型,为其提供相应的自由度、位姿及速度等信息。这一步被我们认为是动捕子系统中不可或缺的一部分,也是诺亦腾作为动捕厂商所应承担的责任。
之后,我们还需要对工作平台进行适配。只提出需求而不考虑执行路径是远远不够的。作为一个有着丰富经验的算法工程师,我深知从理论到实际应用之间的漫长旅程充满了挑战。要打造一个既实用又可靠的系统,需要经历无数的工程挑战。针对主流的工作平台进行适配是至关重要的。在此过程中,我们必须将工程实现与算法理论紧密结合,确保系统的鲁棒性足够高,能够长期使用而不出现错误。
值得一提的是,Nvidia公司在具身智能人形机器人领域投入了大量的精力和资源。诺亦腾的解决方案也充分考虑了这一点,对该平台进行了适配。目前,该解决方案支持的开发语言和平台包括C++、Python、ROS以及Nvidia Isaac等。在这之后,我们才能聚焦于被驱动的机器人本体以及由此产生的训练数据集。
接下来,让我带你深入了解机器人的训练数据集的四种生产模式。在具身智能机器人领域的数据集生产过程中,存在四种主流的生产方式。不同的科研团队可能会根据自己的研究方向选择不同的方式。对于实力雄厚的厂商来说,要想实现泛化抓取和任务完成等实际应用场景,通常会选择其中两种方式进行结合。这些生产模式涵盖了从数据采集、标注到处理的全过程,为机器人的智能化提供了重要的数据支撑。通过对这些生产模式的深入研究和实践,我们可以推动机器人技术的不断进步,为未来的智能生活带来更多可能性。基于真实本体的数据集生产方式
正如Tesla及我一些客户厂商所选择的路径,数据集的生产紧紧依托真实本体。在这种模式下,真实的人类通过穿戴动作捕捉设备,直接操控一个真实的本体,在真实环境中完成任务。这个过程会收集本体的视觉信息、运动控制信息以及传感信息,用于训练模型。这种方式的独特之处在于它能提供最高质量的、毫无偏差的真实数据。这种生产方式的成本也是最高的。每一个采集席位都需要配备一套机器人本体、一套动作捕捉设备以及一个负责遥操作采集的人员。
(图注:诺亦腾HybridTrack混合运动测量系统动作捕捉应用于虚拟本体遥操作)
与上述方式有所不同的是,Nvidia等厂商正在积极探索的另一个方向——基于虚拟本体的数据集生产。在这一模式下,人类仍然需要穿戴真实的动作捕捉设备,但他们的操作对象却是一个在物理仿真环境中的虚拟机器人,这个虚拟机器人与真实本体的构型完全一致。操作者通过遥操作虚拟本体在虚拟环境中完成任务,并收集虚拟合成的视觉信息、运动控制信息以及合成的力触觉信息。这种方式虽然能在保证数据质量的同时进行真实的人机演示(Human Demostration),但由于操作环境和对象性质的不同,其采集的数据仍存在一定程度的领域差异(Domain Gap)。
这两种方式各有优劣,基于真实本体的生产方式更为真实、成本高昂;而基于虚拟本体的生产方式则更具灵活性,但存在一定程度的领域差异。根据实际需求和应用场景,可以选择最适合的数据集生产方式。图注:前沿科技融合之美的展现——诺亦腾动作捕捉系统驾驭Nvidia Isaac平台智元远征A2机器人虚拟本体
虽然成本相对较高,但仍有部分企业,尤其是那些追求早期任务执行闭环的企业,更倾向于采用遥操作机器人及虚拟实境数据收集这两种方法(尤其是前者)来采集数据。他们所追求的,主要是数据质量与在本体上的兼容性。其实,成本并非主要问题,真正的挑战在于效率。以遥操作机器人为例,执行任务时的速度仅为真人的五分之一。而第三种方法,尽管效率高,却存在巨大的挑战。
第三种方法——直接基于人体运动数据的数据集生产,是一个引人注目的新方向。它让人们穿戴机器人本体上的传感器和动作捕捉设备,去完成一系列复杂任务。这种方式让人脱离本体限制,从而大大提高效率。这种方式也带来了一个巨大的挑战——“Human2Robot Gap”,甚至比真实本体与虚拟本体之间的鸿沟还要大,科研难度极高。
对于“Scaling Law”能否弥合所有差距的问题,我持谨慎态度。这就像让一个婴儿只能通过观看视频来学习走路和拼乐高一样,虽然理论上可能成功,但实际操作中的困难重重。如果这一假设得以成功实践,无疑将大幅度降低数据生产成本。我更倾向于相信合成数据与真实数据的结合将是未来的主流趋势,二者以合适的比例融合,从而达到既保证质量又控制成本的最佳平衡状态。
科技前沿的探索总是充满未知与挑战,但正是这种挑战与探索的精神推动着科技的进步与发展。让我们共同期待这一领域的更多创新与突破。塑造未来价值的具身智能数据工厂
想象一下,一个融合动作捕捉、高精度追踪子系统以及数据处理与输出流程的解决方案,结合本体映射工作流,支持多种平台和本体。如果设计得当,这个解决方案不仅能轻松搭建,高效运转,更能支撑起大规模的“具身智能数据工厂”的建设。
参考图注:诺亦腾与深圳市人工智能与机器人研究院(AIRS)联手,共同筹建这一大规模数据工厂,这张图只是一个示意。
广东省具身智能机器人创新中心正积极构建一个技术型服务平台,以支撑国家“具身智能机器人产业集群”的发展。该中心与全球领先的动作捕捉设备制造商诺亦腾紧密合作,针对具身智能机器人训练数据集生产等共性需求进行技术突破。诺亦腾战略合作伙伴、广东省具身智能机器人创新中心主任兼深圳市人工智能与机器人研究院(AIRS)常务副院长丁宁表示,他们正在努力打造行业标杆性的数据工厂模板,以推动国内人工智能与机器人技术的提升。
如何让数据实现跨本体的通用性,仍是科研领域的探索课题。我们正在努力寻找答案。许多演讲嘉宾都提到了数据获取难、数据质量差的问题。针对这些问题,诺亦腾正与业内有识之士积极探讨合作,寻求建设规模庞大、产能充足、成本可控的具身智能数据工厂的可行性方案。我们期待未来能为大家提供一种全新的服务模式。