春节假休完,北上广又开始上演小城妈宝惨变五环内社畜的惨剧。恢复到自己洗衣做饭收拾屋子的日子,年轻人们又深刻地感受到——科技不能改变生活,老妈才能。
人工智能虽然在各种游戏比赛中血虐人类,但在现实世界里却不能帮助人类“血虐”家务活。在研究更适用于复杂现实场景的这件事上,我们一直在努力。
通过计算机视觉对外界进行感知,再结合数据模拟计算规划行动,是机器人训练研究的一个常见的方向。
比较典型的有伯克利一直在尝试的少样本强化学习,类似于拿一段叠被子的作为训练数据,利用奖励机制引导AI进行学习,直到AI也学会叠被子为止。甚至还会引入“叠错被子”的作为训练数据,教导AI如何在任务执行错误的过程中进行自我修正。
因为在现实世界,尤其是家庭、门店、餐厅这种极具生活化的场景中,存在有太多不确定性,很难像自动化技术那样,规定好一套固定的流程。近年来研究较为深入的计算机视觉,也包括雷达传感、红外传感这样的传感技术便被利用起来了。
除去实验室的研究以外,我们在日常生活中也能看到很多依赖视觉能力来判定现实问题的机器人,例如工厂里通过视觉识别瑕疵品并进行分拣的机械手臂。但仅仅依赖视觉,或者激光雷达、红外传感等空间感知能力,也并不能帮助机器人们做好面对现实世界的准备。
就像在里常常出现这样的情节机器人已经发展到高度智能化,甚至和人类无异,但在做一些类似于拿起一包牛奶,或者跟人类握手的动作时,往往会掌握不好力道。
这种情节并不是完全虚构的,对于视觉传感技术的机器人来说,它们能够辨识外界事物的形状,却很难判断外界事物的质地、密度和受力情况。所以在很多情况中,光有视觉技术是远不足够的。
守序善良且秀一位非人类的职业积木玩家
比如很多人都玩过,或者在美剧里见过的桌游“叠叠乐”——用积木条堆叠成积木塔,参与玩家在不导致塔倒塌的前提下从塔身中抽出积木条,将积木条搭到塔顶端,塔在哪位玩家的回合中倒塌,哪位玩家就输掉比赛。
“叠叠乐”就是典型的AI一定打不过人的游戏。因为这种游戏考验的不仅是策略性,还有动手能力,取出和放置积木时动作轻了重了,都可能导致游戏失败。不光如此,叠叠乐的游戏过程还具有很大的不确定性,堆起积木塔时每条积木位置的轻微变化,对手玩家在拿走积木条时对其他积木位置带来的改变,都在影响着整个积木塔的稳定性,也直接决定了玩家的下一步动作。
这种过程如果是用视觉技术理解,则需要难以想象的海量计算——堆起积木塔时每一条积木的位置、两位玩家的每一步动作,都会造成无数的分叉结果,几乎是不可能完成的任务。
但只需要一点点小小的不同,这个难题就被解决了。
在最近的Science Robotics期刊中,来自MIT的科研人员公布了他们最新的研究成果——用机器手臂玩叠叠乐。
项目负责人Rodriguez提到,之所以选择叠叠乐作为实验对象,是因为这个游戏中体现了机器人应用的一个重要问题——物理交互,也就是前面提到的动手能力。
为了解决物理交互问题,MIT为普通机械手臂添加了三样东西,柔性夹钳、有力量传感作用的腕带和拍摄全局画面的摄像头。
在进行训练时,机械手臂每抽取一块积木时,力量传感器就会记录下动作的速度和力度,不断和上一次的数据进行对比,摄像头也会从视觉角度进行记录,与力量数据进行对应在分层贝叶斯模型中进行计算。在进行过大概三百次游戏后,通过两种数据维度的配合学习,AI可以快速建立出一个聚类模型,从一个积木塔中寻找稳定性更强的、不会破坏平衡的积木条。相比试图找到一个能应付所有情况的模型,这种在每次移动积木时都重新聚类的方法显然要高效很多。
在测试时,机械手臂的表现也很优异,参与测试的人类志愿者纷纷表示被秀一脸,机械手臂自己玩叠叠乐时的水平已经接近人类了。不过在与人类对战时还是要落后一筹,因为人类玩家在抽取积木时会特意难为对手,在自己的回合破坏平衡性,让积木塔很容易在下一回合倒塌。但AI还做不到这一点,在这一模型中,AI的每一步操作都是为了增强整个积木塔的稳定性——一位典型的秩序善良玩家。
这也导致了在叠叠乐上,AI还很难实现和人类对战。不过项目负责人Rodriguez认为,他们创造这个项目本来也不是为了和人类在叠叠乐游戏上一决高下的。
当AI开始多才多艺
BBC、CBS Nes和Wired等主流媒体都对这一研究结果给出了很高的评价,原因就在于这一研究在AI的触觉刺激上突破,具有很高的现实意义。
MIT提到,目前应用在叠叠乐AI模型上的原理,同样也可以被应用在一些应用机械手臂的场景中。
例如在一些数码产品精细部分的组装上,在拧一些很小的螺丝时,很难实现以视觉方式进行测量,只能通过触觉进行感应。但有了“叠叠乐AI”的经验,普通机械手臂也能通过一些简单的改装,增加力量传感机制在短时间完成训练,学会以触觉刺激为参考标志的组装、包装等工作。
虽然现在自动化工业生产线也能实现在无人状态下进行精细组装工作,但其实现成本是非常巨大的。可能一条生产线只能完成某一部件上的一小颗螺丝,对于中小型厂商来说很难承担得起。但拥有了触觉刺激的机械手臂结合AI算法,却可以帮助类似的功能走进小型生产线甚至家庭。
其实这种结合两种纬度数据进行AI训练的方式并非MIT独有,在去年我们在一些类似于视频分析的领域中,也能看到诸如画面分析+语音分析的多模态理解。
聚焦到机器人领域中,这几年也有很多类似的研究。例如模拟人类手指力量感知能力的机械钢琴手,通过操作时获取钢琴按键反弹时的数据反馈,来更精准地模拟出人类弹钢琴时的轻与重。还有低成本的生物感应电子皮肤,可以贴合在机械设备上帮助寻找施力方向。
随着触觉机制越来越多地被引入机器人领域,与视觉系统、红外/激光雷达等其他传感模式的结合也越来越多。
可见在探索现实世界的旅途中,AI正在愈发多才多艺起来。相信当机器人也开始手眼并用时,我们距离“科技改变生活”的未来也越来越近了。