早在上个世纪50年代,电子计算机诞生不久,就有科学家们提出“类人类的智能”这样的一个概念。
人工智能领域有个符号主义学派,用基于逻辑推理的智能模拟方法去模拟人类智能行为,其中最有代表性的成果为启发式程序——“逻辑理论家”,科学家们用它证明了38条数学定理。加之当时处于冷战背景,不论是美国还是前苏联,政府对人工智能投入非常大,所以人工智能在60年代迎来了第一个黄金时代,人们对其前景非常乐观。
诺贝尔经济学奖获得者、美国著名经济学家西蒙是一位早期人工智能学者,他认为,到20世纪末,人工智能将取代人类智能,机器会完成人类日常大部分工作。
□ 《人工智能》剧照
80年代中期到90年代,人工智能遇到一个大挫折,人们发现,虽然人工智能可以做复杂的推理工作,却做不好简单的事情,在语音识别、图像识别方面一直没有进步,而且看起来连发展方向都找不到。
,伴随着冷战结束,政府投资逐渐减少,做人工智能拿不到钱,大家甚至类比核战后的萧条创造了一个词叫AI Winter。尽管在90年代早期到中期AI出现一次小规模复兴,主要是专家系统的兴起,但仍旧没有走出低潮期,这个低潮期一直持续到2000年左右。
从2006年开始,由于深度神经网络的逐渐兴起,特别是在2011年左右的深度神经网络在一系列传统任务上取得了重大突破,人们发现,人工智能进入了复兴的快车道。近两年来,尤其是从2016年3月份AlphaGo击败李世石这件事情开始,人工智能进入大众视野。
目前对于非监督学习的研究远远不够
截至目前,人工智能领域取得的最重大突破还是机器学习。
机器学习大致可分成三类。
第一类叫监督学习(Supervised Learning),就是利用一定量的标定数据学到一个模型,然后利用这个模型对没有标定的数据去做分类。
监督学习可以用于分类和回归。
分类是指将若干标定好的数据分成ABC若干类,如信用卡反欺诈、人脸识别、语音识别、指纹识别等。
所有偏数值性的东西都可以用回归的方法去做,回归是指预测某个数值,如预测天气或股票价格。
目前在机器学习领域研究的最透彻的还是分类问题,大致可以分为两个阶段
第一阶段要有一堆标定数据。比如你告诉机器,这张上有张人脸,或是某句话表达了一个什么意图,这句话的语音信号和其所对应的文本就叫标定数据。
第二阶段将标定数据放到机器学习算法里去做训练,生成相应的模型,今后可以利用模型来做预测。举个例子,我们利用一张带有人脸的照片作为标定数据生成一个模型,今后我们使用一张新照片作为没有标定的数据,便可利用这个模型来判断照片里有没有人脸。
□ 电影《机器姬》剧照
第二类叫非监督学习(Unsupervised Learning),主要是在没有标定的数据里发现模式或各种。常见的非监督学习任务包括异常检测、聚类、关联分析等等。
异常检测是从在一系列数据中找到反常的点或模式,比如峰值或波谷,聚类是将一堆数据中相似的部分聚成一类。
以下这种情况就属于异常检测
经过几千公里长的石油管道运过来的油出现问题,产生问题的原因可能是自然灾害把石油管道破坏,也有可能是油管被人撬开一个洞,怎么找到产生问题的点。
尽管公认非监督学习比监督学习更重要,因为前者能发现新东西——原来不知道的、没有看到过的东西,但实际上,以人工智能目前所能达到的水平来看,90%以上精力都集中在监督学习里。
就监督学习来讲,预测准确率和召回率是一个硬指标。同样面对一张含有人脸的照片,在同样的召回率下,A的准确率90%,B的准确率95%,那肯定是B比A好。
人类探索知识过程是个非监督学习的过程,虽然很重要,但没有东西可以比较。比如说做聚类,A聚了五类,B聚了六类,如何在理论上确定A一定比B好、聚五类一定比聚六类好呢?或者说,A发现某个现象,管这个现象叫异常,B也发现了这个现象,但不一定就把它叫做异常。哪个更有道理?
从工业界角度去看,我们希望能有大量这样的学习过程能帮助我们去认识这个世界,但实际上,目前我们对于非监督学习的研究远远不够。
我跟同行们接触,发现一个非常明显的现象人工智能领域的很多研究者,大部分都在研究监督学习,因为这方面的成果非常容易被学术界认可,只要在数据上做的好,一定会得到认可。但对于非监督学习,模式和知识的自动发现和积累,却少有人问津,虽然大家都普遍认为很重要。
□ 科幻电影《人工智能》剧照
第三类是强化学习(Reinforcement Learning),其所承诺的目标更加吸引人能够从反馈里学习,即在一个不断变化的环境中去学习。这个术语最初是用来描述赌场里的场景。
假设你带着1000块钱进入一个有1000台老虎机的赌场,每台老虎机每次可以赌1块钱,但每台老虎机输赢概率都不一样,有高有低,如果你的任务是尽可能多赢钱,该怎么做呢?
一个合理的策略是你先拿出三分之一的钱去挑台老虎机试,赢了之后可以继续在这台机子上接着试,输了的话就换一台。三分之一的钱花完,你可能已经试了几十台或几百台老虎机;把其余三分之二的钱都用在赢钱概率最高的那台老虎机上。
这个策略就可以用强化学习的方式学习到。强化学习的思维方法就是在一个不确定的环境下,如何利用反馈去学到一个最优策略,从而使得收益最大化。AlphaGo的算法模型中就使用了强化学习,强化学习和现实生活很接近,甚至能帮我们解决一些现实生活中的问题。所以在这方面研究现在越来越多。
深度学习的强大之处
当前领域的一个重大突破就是最近我们经常提起的深度学习(Deep Learning),它所使用的深度神经网络和人类大脑的工作方式有一些类似的地方。
人类大脑里有150亿个神经元,分成不同区域,每个区域之间的神经元本身没有区别,只因功能和位置的原因导致分工不同。比如说,接近我们眼睛的这部分神经元被训练成能够感知眼睛传过来的信号,但对人类的语言没有反应,它能够把眼睛传过来的信号处理后,传输到大脑内部。
但这并不意味着神经元本身是有差别的,事实上,有科学家做过实验,把鼠胚胎的神经元细胞移植到成年鼠受损的视神经区域,两者成功融合,建立了连接。我们在 AI 领域使用的深度神经网络技术也是如此,神经元之间是类似的,因为层级和位置的不同,输出不同的效果。
大家为什么都愿意用深度神经网络呢?一个重要的原因在于,利用深度神经网络之后,我们就可以不用再去花大力气去做特征工程(Feature Engineering),也就是挑特征。
你可以把所有能找到的特征都融进去,只要层数足够多,投入的计算机资源足够大,就能得到更好的结果。
要使用深度神经网络,需要巨大的数据量。人类在幼儿阶段要想认识一个苹果,可能被训练十几次、几十次就差不多了;而一个深度神经网络要认识一个苹果,没有几百万张图片是不行的。
是需要一个可描述的确定性目标。也就是说,要明确告诉它这是一个苹果。
目前人工智能的特点是我们人类看起来非常有挑战性的事情,只要这件事情有明确目标和足够数据,机器就可以相对容易地将其解决;而许多我们人类觉得很稀松平常的事情,比如模式的发现、基于常识的推理,机器做起来反倒是非常难。
如何将运用到各行各业,解决行业里的推理、知识共享与传播、生产规划、路径规划、通讯等问题,将是重要趋势。
如何衡量对话产品的优劣?
无论在国内还是国外,年轻一代对于对话交互的接受程度非常高。有调研数据显示,年轻人更习惯于以文本信息进行交流。在这种大背景下,我们认为,对话交互很可能会成为下一代交互方式,它未必能替代图形交互,但至少会成为图形交互方式的补充。
大家对于现有的对话型产品的体验一定很糟糕,觉得这个东西不是人工智能,而是人工智障,问题非常多,其中最根本的一个问题是,目前我们对于语言/文本,在机器能处理的空间中没有一个很好的表达方式(Representation),从而使得现有这些对话机器人没有办法从语义和逻辑上去理解对话,并且缺乏自学习能力。人类理解的语言,其实是由单词之间组合的意义,机器没有办法将这些意义很好地表达出来。
从效率上看,CUI(对话用户界面)适合做深度,GUI(图形用户界面)适合做广度展示。
CUI和GUI还有一个重要区别是产生的感受不一样。
GUI给用户的感受是更多地是静态的具有空间感的东西,陈设式的;但CUI给人更多地感觉是时间感,随着沟通的深入,给用户一种时间流逝的感觉,所以时间在对话交互里是一个非常关键的设计因素。很多对话机器人在和用户对话时,用户就说,这个东西我之前告诉过你,你为什么还不知道?所以话语之间的前后关系对用户的影响比较大。
用户对于CUI和GUI的预期也不一样。很多用户对GUI没有预期,我看到的东西和别人看到的都是一样的,属于公共的东西;但对话通常仅限于两人之间,天生就应该是个性化的,要满足用户的个性化需求。
衡量一个对话机器人产品,有三个象限用户价值、稀缺性和技术成熟度。
——用户价值特别高、产品稀缺、技术成熟度又好的产品,一定是只有垄断企业才能实现。——用户价值高、技术成熟度高但稀缺性不够的产品,一定会有很多人在做。——技术成熟度高、稀缺性高但对用户来说价值不大产品,一定会慢慢退出历史舞台。
从界面的角度来说,对话本身不是目的,它只是黏合剂,如何通过对话技术将东西推荐给用户并从中挖掘出合适的有价值的东西?这是一件有挑战的事情,也是一件有价值的事情。