对拥有血肉之躯的人类来说,「抓握」技能是生活中不可或缺的一部分。在的世界中,它却是一座难以逾越的高山。
日前 OpenAI 实验室发布的研究成果,让仿真机械手可以自如操控手中的小方块。令人惊讶的是,这只机械手并没有人类导师,它做的一切都靠自学成才。
对拥有血肉之躯的人类来说,「抓握」技能是生活中不可或缺的一部分,甚至因为使用太过频繁而经常被我们忽略。拿起放下,看来稀松平常,背后却是无数神经网络、肌肉经络协作的结果。
在机器人的世界中,它却是一座难以逾越的高山。就目前而言,简单机器人的场景大多被限制在特定领域或特定工种。工厂流水线上的机械臂,可以将人工效率提升百倍,却不具备自我思考能力——每个精准操作都需要提前编入系统,一旦环境有所变化,即便是微小的产品改动,可能整条流水线就要推翻重来。
而在由「钢铁侠」埃隆·马斯克和 YC 掌门人 Sam Altman 组建的 OpenAI 实验室,最新发布的研究成果让机械手能够自如操控手中的小方块,流畅的动作中已经隐隐有人类儿童玩积木的影子。更令人惊讶的是,这只机械手并没有人类导师,它做的一切都靠自学成才。这只「成精了」的机械手,背后的系统叫 Dactyl。
玩块积木,有这么难吗
OpenAI 给 Dactyl 布置的任务是把手中的小正方体旋转到指定方向。
听起来简单,却刷新了近年机器人研究领域的成果。事实上,此前学界的重心主要放在训练构造相对简单的两指机械臂来抓取物体。例如加州大学伯克利分校的 Autolab 实验室就训练了一系列以夹子或吸盘为手指,能够拾取小型物体的简单机械臂。但研究者们并不满足于此。毕竟在创造外形与自己相似的机器人这件事上,人类一直有种迷之执着。
两指机械臂
Credit: The Ne York Times
对人类来说,捡起一块石头和拿起一只苹果,本质上可能没什么区别。大脑会自动检索以往经验,并以此为基础尝试解决新的挑战。,如果让机器重复这一学习过程——
毕竟现实世界的迷人之处就在其充满不确定性。如果让机器完全按照人的行为模式来习得处理能力,其过程将会无比复杂训练需要数千个不同形状的物体,以及数以百万计的用例;除去资源上的高要求,时间,也没人等得起。
OpenAI那么… 干脆把人类那一套扔到一边?
OpenAI 的研究者们创建了一个模拟环境。在这个环境中,Dactyl 知道自己要做什么,却没有人告诉它如何去做小方块的六个面分别印着不同颜色和数字,它需要根据指令将某个面旋转到指定位置。研究者希望它能在环境中不断试错,并在错误中找到规律,直到逐渐学会如何通过控制手指的活动来控制手中物体。
训练 Dactyl 使用的是机器学习算法中的强化学习(Reinforcement Learning)。没错,就是教出横扫人类围棋高手的 AlphaGo 的强化学习。其灵感来源于心理学中的行为主义理论,即如何在环境给予的奖惩刺激下,逐步形成对刺激的预期,并由此产生能获得最大利益的行为。
Credit: OpenAI
在模拟环境中疯狂训练的好处是,摆脱了物理环境的限制,系统可以在短短几秒内尝试数千种可能。事实上,研究团队只用了约 50 小时,就让 Dactyl 模拟了真实世界中长达百年的试错与学习过程。
高强度训练的背后,所需的硬件支持也相当可观。为实现模拟环境,研究人员动用了 6144 块 CPU 和 8 块 GPU。机械手的本体来自英国公司 Shado Robot,它具备 24 个自由度,秒杀市面上多数仅有 7 自由度的简单机械臂。Dactyl 知道自己每根手指的位置,还有三个摄像头来帮它判定手中物体的位置和状态。
Dactyl 全家桶机械手 + 摄像头
Credit: OpenAI
虽然 Dactyl 的技能是在虚拟环境中习得,但它的特别之处就在于可以将其应用在现实世界中。除去用于训练的小方块,只要大小可以掌控的物体,它都可以通过自学来尝试与之交互。从 OpenAI 发布的中可以看到,Dactyl 竟然学会了一些人类才有的「偷懒」小动作例如,用两根手指捏住小方块,然后利用其他手指的拨动来让它旋转。
Credit: OpenAI
Dactyl 证明了机器学习在机器人领域的无限潜力,也让我们相信,机械臂以及其他种类的机器人具备完成复杂工作的潜质。研究者眼中的理想状态是,机器人将具备自我学习能力,未来投产时不需要人类根据任务逐个训练。不过,即便经历了百年的学习,目前 Dactyl 的成功率也远远不及人类儿童的水平。在真正的智能上,AI 要走的路还长着呢。