2016 年,人工智能在美好理想和残酷现实的夹缝中野蛮生长。
无论是平台还是产品,其核心竞争力在这两方面
巨大的市场需求
足够的差异化和独特性,不可复制性
满足这两点,你的产品和解决方案或服务才拥有核心竞争力。
当从业者们认为,“技术为王”是人工智能时代的关键时,接踵而来的价格战、商务战、公关战,让技术似乎不再是唯一的信仰。当从业者们认为,手握学术大牛、刷爆各种榜单就能所向披靡时,“AI 产品经理比科学家重要”、“刷榜是没意义的”等反驳性观点也越来越被业内认可。当从业者们认为,招一大批名校博士就可与巨头比划时,虚高的薪水和拿不出手的产品让企业不得不开始考虑性价比的问题。,人工智能真的能像预期的那样,未来五年走进家庭,给人们的生活带来“惊艳”的变化吗?
人工智能看似一块巨大而香甜的蛋糕,似乎每个人都能从中看到未来数量庞大的客户呈几何式增长的前景,,现状是欧美、日本这些在领域做到登峰造极状态的国家,在人工智能领域,并不能制造出可以替代人类的。甚至,他们的人形机器人,或者,只是停留在一个“人的初级概念”。
人类的需求不是特定的,也许有人会需要真人一样的、有情感依赖的机器人陪伴在身边,如果是单身的话,想象空间就很大了。这样的机器人在5~8年之内商业化是有可能的。未来人形机器人在运动控制和人工智能上将接近人。
过去推动人工智能的核心要素可以概括为大数据、大计算、大平台其在互联网和云端做人工智能的技术与服务。如果朝更远的方向看,我们会发现除了从云端部署人工智能,其实很多场景下急需在设备端部署人工智能,使这些设备具备环境感知、人机交互、决策控制的能力。
亚马逊认为未来的人机交互的发展,消费中心一定是人形机器人。人形机器人最关键的技术是视觉输出。我们每天所获取的信息超过70%、80%都是从眼睛来的,所以是要进行图像处理,如何将获取的图像变得更加清晰。看清楚之后,就是机器识别,作为家庭服务机器人,要认识家里每一个成员,这样才能对他们建立用户画像,然后把家庭成员的信息归总起来。要想完成稳定的图像处理和机器视觉,离不开两个非常关键的基础方面的研究,即深度学习和多视角学习。
比如全球首台具有人类感情的机器人Pepper,标志着人类在机器人人工智能方面的一次伟大飞跃。在作出它认为合适的反应之前,Pepper能够识别人的面部表情、嗓音腔调和身形。在日本东京Omoto sando高级购物区,Pepper在手机商店里做一些市场调查的工作。
又比如JIBO机器人,它不仅外型又萌又可爱,带有“面部识别”功能,能够识别主人,与我们进行交流。从本质上来说,Jibo算是一款社交型机器人,它能根据使用者的需求做出反应。在它的“头部”,有一个大大的圆形屏幕,用于显示信息或展示心情。Jibo内置两个高分辨率的相机,可以识别、追踪人脸,扑捉镜头,发起即时通话;内置的360度环绕扬声器和语音处理机制,可以在房间的任何位置与其他成员交谈。比如当Jibo为孩子们讲故事时,不像以往的传统工具单纯冰冷的单项输出,而是可以识别孩子的情绪,通过声音、动作、屏幕显示的“眼神”,与孩子互动。
机器人在家里到处走,要进行实时场景的解析,如何精确地实现室内导航,要有很多基础技术的支持。理解了环境,下面很重要的事情就是认知人、理解人的行为,这是运动的人脸识别系统。人是有情感的,你可以很友善,也可以很愤怒。这对于机器人来说就需要理解人的表情。理解了人的情绪、人的行为,下面就要知道如何检测和识别物体。
人形机器人最终面向家庭的商业化还是要降低成本,而最大的问题就是要估计人的姿态,如果给机器人装很多摄像头和传感器必定会提高成本,如何利用单幕摄像机来获取想要的数据就是需要研究的问题。
,还有一个关键问题是模型压缩。人形机器人运动过程当中有很多计算的开销、电能的开销,再加上人工智能的开销,就导致它要有一个很大的电池,这在很多场景中是很难克服的,要把大的模型变成小的模型。
未来5年内或迎来突破
在基本功能达到之后,就可以不断迭代,真正产生一个符合需求的产品。在两到三年之内,机器人“抓取”的功能一定能到位。
以“抓取”这个功能为例,家里各式各样的瓶子很多,酒杯、矿泉水瓶、暖水瓶等等,可能在机器人看来都是一样的,但如何精准地把这些物体识别出来,就是需要人工智能技术和运动控制技术相互配合的场景。
比如美国宇航局喷气推进实验室参赛的Robo Simian猿形机器人。它有四条腿,有7组镜头,可以行走在不平的路面上,譬如楼梯或者山上,成为全方位搜索和救援机器人。
Robo Simian的多关节腿上有三根灵巧的手指,让它可以像猿类来个兰花指,或荡个秋千,在去年的演示中,它还做了个引体向上。
真正的人形机器人是有四肢、大脑及躯干的机器人,只是它的外形不见得是第一步就完成的。先完成整体躯干的部分,可以运动了,有了AI的概念了,然后再做更加真人化的皮肤、材料、各种传感器,这时候触感、温度各方面才会有进步。
比如新版本ASIMO的每只手都拥有13个自由运动轴,凭借这一点,它已经能够成为一个合格的手语表演者。除了可以完成各种复杂的行走功能与人类肢体动作外,还具备了人工智能AI,可以预先设定动作,还能依据人类的声音、手势等指令,来从事相应动作。
“未来5年结合驱动技术、控制技术,以及人工智能的发展,一定会迎来人形机器人在家庭中新的突破点,也会迎来产业应用的突破。”
最近大家在说中国 AI 的人才、技术储备、研究、创新都有优势,这个观点我不太认同。实际上,国内学生在已经讨论出解决办法的情况下去做拿竞赛、刷分,这方面我们很擅长。但真正做出 Alpah Go 这样的创新,咱们还差些火候,而且国内也缺乏孵化这种创新的土壤。今年深度学习原创性的基础研究在大步向前发展,我几乎没看到哪些进步是国内产生的。
至于为何要做嵌入式人工智能?过去推动人工智能的核心要素可以概括为大数据、大计算、大平台其在互联网和云端做人工智能的技术与服务。如果朝更远的方向看,我们会发现除了从云端部署人工智能,其实很多场景下急需在设备端部署人工智能,使这些设备具备环境感知、人机交互、决策控制的能力。
商务和销售确实非常重要,因为只有把技术和具体应用场景拉近才能产生价值落地。技术研发也一定要有差异化,这种差异化如果只是做研究,只是去 Follo 开源平台等这些大家都在讨论的事情,这是很主流的做法,如果你一定要关注主流算法,潜台词就是你已经放弃了差异化。你一定要深入特定的问题,深入解决那个场景下的各种限制条件,去针对性地提出特殊的方法解决实际需求,这是让你更有差异化的途径。