先知面向实际问题能提供更好的型解决方案,从业人员利用这个平台,1-2个月就能成为数据科学家。创始人戴文渊开玩笑说“我们的愿景就是让我们自己的科学家失业。”
第四范式号召“AI for everyone”,想要打破AI小圈子的限制。戴文渊说“我们不是要成立一个小圈子,我们这些人在这个小圈子里面玩AI,而是我们要让AI的门槛降低,让每个人都能够参与进来。”而第四范式首席科学家杨强也把““规避人工智能被某些集团垄断、引导人工智能走向大众”当成自己作为一个科学家的使命。
在今天的发布会上,第四范式请来了创新工场创始人李开复、第一财经首席执行官周健工,红杉资本创始合伙人沈南鹏因为恶劣天气耽误了航班,但也在发布会进行到一半时赶到了会场,每个嘉宾都有备而来,各自做了主题演讲。加上戴文渊和杨强两人,这次发布会的规格撑得起四分之一场人工智能峰会了。
发布会结束后,记者和第四范式首席科学家杨强教授聊了更多关于“先知”和迁移学习的问题。杨强教授是香港科技大学计算机与工程系主任,首位美国人工智能协会(AAAI)华人Fello,唯一AAAI华人Councilor, 国际顶级学术会议KDD、IJCAI等大会主席,曾创建华为诺亚方舟实验室并任主任科学家。
记者杨教授你说数据是资本是石油,有数据的人能提供越来越多的服务,这句话是不是意味着在AI领域平台性的公司还是留给大公司?
杨强其实任何成功的人工智能应用离不开自学习,有足够多的数据、有足够多的需求、庞大的计算资源,要有顶尖的数据科学家来建立系统,这些都是必要条件,是必不可少的。如果我们这样走下去,没有任何新的措施、技术和平台,我们就会看到富人越来越富。富是什么意思?科学家越来越多;像现在大学教授不断地辞职去哪里?去Google;数据也不断地积累,积累到哪里?Google、百度;就形成了这样“富者愈富”的局面。
现阶段是这样的,因为只有大公司才有能力收集这些数据,而且这个现象会越来越严重。他有能力收数据,他的数据越来越多,他通过数据又可以产生新的服务,反过来这些数据又可以吸引更多的数据,所以雪球越滚越大,这不是很健康的事情。我们也想突破这一点,使得那些不是大公司的、没有具有那么大的财力的公司也可以享受到人工智能的益处,这个我们叫AI for someone,对某些人来说AI是可以产生盈利的,这个比以前的AI for no one还是有进步的,我们的理念是AI for everyone。
记者这个领域有希望出现独角兽么?
杨强我觉得独角兽基本已经出现了,下面要看独角兽是不是会持续出现,比如说Google就是一家独角兽,因为搜索本身就是大数据和人工智能的结合,包括Google现在众多的产品都是大数据在驱动的,我们看到的滴滴打车也是一个数据驱动的公司,因为只有数据他们才能更好地协调和调度。像阿里巴巴也是一个人工智能的独角兽公司,因为它是利用了大量的电商数据去做更好的推荐平台和运输平台。这样的话它的服务就会越来越好,越来越有效率。
记者刚刚在台上戴总提到深度学习现在存在一些局限,局限表现在什么地方?
杨强说深度学习有一些局限这个观点是成立的。它的局限来自于几个方面,因为一个模型毕竟是一个现实的反映,等于是现实的镜像,它能够描述现实的能力越强就越准确。我们看到深度学习有一个限制,因为机器学习都是用变量来描述世界的,深度学习能handle的变量数是有限的,深度也是有限的,它对数据的需求量随着模型的增大而增大,我们现实中有那么大、那么质量高的数据的情况还不多。实际上一方面是数据量,一方面是数据里面的变量,深度学习来描述数据的复杂度还不够复杂,所以这方面还是有局限性的。
记者但深度学习它是不是目前最好的机器学习的方法?
杨强应该说目前对某些问题是最好的,比方说人脸识别、语音识别,对其他的问题并不是最好的,比方说对于有延迟的反馈,比如的行动。AlphaGo下围棋也不是深度学期包打所有的,它还有强化学习的一部分,反馈是直到那一步才知道你的输赢。还有很多其他的学习任务都不一定是深度学习才能来完成的。
记者就现在的数据分析的水平,能不能准确地预测出世界杯或者是欧洲杯的结果?我之前看到有团队预测欧洲杯结果,觉得似乎缺了一些科学性。
杨强如果这些球员还有他们的对手还有裁判已经掌握了大量的数据的话,还是可以预测的,对于每一个球队来说我们掌握的数据还是比较少的,我们只能做一些推测比如说和巴西队很相近的是阿根廷队,跟德国队很接近的可能是荷兰队,这种推测本身可能就有不准的地方。再乘以十几年的数据积累,可能十几年前的德国队和现在的德国队也有大的不同,他们遇到不同的裁判和教练,也许他们的表现就不一样了,所以你说的科学性不够还是因为数据不够的原因。
记者您刚刚在台上也对无监督学习做了一个判断,现在有很多的科学家在致力于做这方面的研究,你说实际上有成功案例的不太多?
杨强无监督学习应该说是在学术界很高的目标,在工业界成功的案例还不多,可是在工业界不多并不表明在学术界不应该做,相反学术界正应该去做,攻工业界没有做的东西。但现阶段来说,我们在很多的深度学习的领域还是有监督的情况下任务完成得就好很多,无监督的成功的案例还是比较少的。
记者我知道您在做让AI有情绪的研究,您介绍一下您的研究进展么?
杨强我们现在跟人机交互的一些教授,我们那边有一个人机交互的实验室,有一些教授在研究说怎么样去识别人的情绪,比如说通过计算机图像、语音和人的姿态可以识别这个人是高兴还是累了还是厌倦了,也可以通过规则和机器学习的方法让机器人针对人的感情疏解他的烦恼,或者是增强他的快乐,我们在做这些方面的研究,然后应用在机器人尤其是对话系统上。
记者其实AI本身是不可能具备情感的是么?
杨强对,它本身是没有情感的,它的情感是我们人设计进去的,所以在别人看来它好象有情感,可是我们设计者只有它是没有的,我们是自己一个数学公式放进去的。
记者这个情感识别技术现在成熟么?
杨强我觉得这个还不够成熟,是因为这方面的数据收集不够多,可能有一些小的例子,在这些例子上成功地展示有情绪、有情感的机器人,通用的我觉得我们还有待时日来收集这些数据。
记者关于知识迁移我在网上找到的信息不大多,应该是英文的资料比较多一些,(非专业的人理解起来有些困难),您能简单介绍一下它主要是解决哪些问题的么?
杨强它主要解决两个问题,比方说我们新开一个网店,我们卖一种新的糕点,可能我们没有任何的数据,这样的话我们就没有办法对用户进行推荐。但如果我们知道用户在一个领域比方说饮料,已经有了很多很多的数据,我们利用这个数据建了一个模型,我们就知道用户饮料的习惯和糕点的习惯可能是有关联的,我们就可以把饮料的推荐模型给成功地迁移到糕点的领域,使得对于糕点随着数据不多,可以成功的推荐一些用户可能喜欢的糕点。
一个领域已经有很多的数据,能成功地建一个模型,另一个领域数据不多,和前面那个领域是关联的,我们就可以把那个模型给迁移过来。这个解决的问题是数据少的问题。
第二个能解决的问题是个性化的问题,我们每个人都希望自己的手机能够记住我们的一些习惯,这样不用我们每次都去设定它,我们怎么才能让手机记住这一点呢?其实可以通过迁移学习把一个通用用户的使用手机的模型迁移到个性化的数据上面。这个以后会用得越来越多。
杨强教授是我们下个月在深圳举办的CCF-GAIR人工智能与机器人峰会的主讲嘉宾,关于迁移学习、强化学习、情感识别等等更多的研究进展和应用状况,我们留待大会透露。现在购票参会将立享7折优惠;如果能够凑齐5人参会,还可以选择更多优惠的5折团体票。