进阶图灵测试暴露人工智能短板:机器理解人类还有多远?
导读】在被誉为“进阶版的图灵测试”的Winograd Schema挑战赛中,来自中国科技大学的参赛选手表现出色,但最终未能获得2万5千美元的奖金。为何会出现这样的结果呢?原来,该挑战赛要求参赛者的正确率至少达到90%才能获得奖金,表现最为突出的两位选手的正确率却仅为48%。这一结果充分表明,要让机器理解常识仍然是一项艰巨的任务。
让我们先来看一段人类与苹果虚拟助手Siri之间的对话:
用户:Siri,帮我叫辆救护车。
Siri:好的,从现在开始,我会称呼你为“救护车”。
这真是一种令人尴尬的对话。虽然Siri在发布后不久就修正了这个问题,但一项新的挑战赛的结果显示,计算机仍然缺乏必要的常识以避免此类尴尬情况的发生。本周,在纽约的一场学术会议上,研究者展示了Winograd Schema挑战赛的结果,并讨论了衡量计算机智能的标准以及仍需努力的方向。
在Winograd Schema挑战赛中,要求计算机理解具有歧义的句子。这些句子对人类来说很容易理解,但要正确理解这些句子,必须具备一定常识。例如,“市政厅议员不批准示威者的许可证,因为他们害怕暴力”这句话中,“他们”的指代在逻辑上并不清晰,但人类可以根据语境来理解。
参与挑战的程序在理解句子的正确含义上比随机选择要好一些。表现最好的两位选手的正确率仅为48%,而随机选择的正确率为45%。根据挑战赛的规定,要想获得2万5千美元的奖金,参赛者的正确率至少需要达到90%。
本次竞赛中,表现最出色的选手是来自中国科学技术大学的刘泉和来自Cypress Open University的Nicos Issak。“机器的准确率仅仅比随机概率高一点点,这并不令人意外,”纽约大学的研究心理学家、本次竞赛的顾问Gary Marcus说。赋予计算机常识性的知识是非常困难的。手动编码这些知识的耗时非常长,而且让计算机通过文本统计分析来理解真实世界也是一项挑战。Winograd Schema挑战的参赛者大多尝试结合手工编码的语法分析和知识库来进行应对。
虽然谷歌和Facebook的研究人员声称他们在自然语言理解方面取得了重大进展,但他们并未参加此次竞赛。“本应是由这些研究人员高调进入并取得100%的正确率,如果他们能做到这一点的话,那将让我深感震撼,”Marcus说。他认为目前的自然语言理解技术仍有待提高。
与此在另一项备受关注的测试中,加拿大人工智能公司Maluuba发布的基于机器学习的自然语言理解程序EpiReader表现突出。该程序在理解和处理未经组织的自然语言方面取得了迄今为止的最佳成绩,超越了IBM Watson、Facebook和谷歌DeepMind等行业领导者。在常用的CNN和CBT数据集测试中,EpiReader的表现尤为出色。作为该公司的顾问,Yoshua Bengio将EpiReader称为一个有趣的进步,并认为该技术将推动Siri、Cortana、Alexa等智能助理的问答能力达到新的高度。
在CNN新闻语料库中进行的测试中,EpiReader的准确率达到了74%,而在由Project Gutenberg的98本经典儿童读物组成的CBT语料库中进行的测试中,其准确率为67.4%。专家认为,这是目前所见到的最好的成绩,具有里程碑意义。要知道,人类的准确率也在80%左右。相比之下,DeepMind的准确率为63.8%,Facebook为66.8%,IBM Watson为69.5%。而在CBT语料库的测试中,Facebook和IBM Watson的准确率分别为63%和63.4%。Winograd Schema竞赛不仅代表着人工智能进步的一个里程碑,同时也凸显了开发直觉更丰富、性能更卓越的聊天机器人的巨大挑战,以及训练计算机从文本中提取深层次信息的难度。谷歌、Facebook、亚马逊以及微软的研究员们正全身心投入到语言研究中,运用最前沿的机器学习技术,特别是“深度学习”神经网络,致力于开发更加智能、更富直觉的聊天机器人和个人助理。随着聊天机器人和语音助理的日益普及,以及在图像识别和语音识别方面取得的显著进展,你可能会觉得机器在理解语言方面已经做得相当出色。
在这场竞赛中表现突出的团队之一,尤其是刘泉的团队(包括多伦多约克大学和加拿大国家研究委员会的研究员),他们正在运用深度学习技术训练计算机理解文本中不同事物间的复杂关系。例如,在理解“打篮球”与“赢了”或“受伤”等词汇间的微妙联系时,他们的系统展现出卓越的能力。
高级研究员Leora Morgenstern对此表示赞赏:“看到深度学习的应用,我感到非常高兴。”Leios公司是一家科技咨询公司,也是此次大赛的组织者之一。尽管刘泉的团队承认他们的系统在理解某些问题时存在缺陷,但他们正在积极修正这些缺陷,预计准确率可达60%。Morgenstern提醒我们,即使达到这一水平,机器的正确率仍然远远低于人类。
Winograd Schema挑战始于2014年,这一挑战是由多伦多大学的一位AI研究员HectorLevesque提出的,以AI先驱Terry Winograd的名字命名。Terry Winograd是斯坦福大学的教授,发明了第一个对话式计算机程序。这一挑战被视为一种升级版图灵测试。图灵测试的核心问题是计算机只需使用简单的技巧和逃避策略就能轻松欺骗人类评判者。计算机若无法理解常识性的内容就无法理解Winograd Schema或其他带有歧义的句子。
此次竞赛意义重大。“当你开始与机器进行对话时,这种情况就会显现出来,”Nuance的高级首席研究员Charlie Ortiz说。Nuance是一家专注于语音识别和语音交互软件的公司,也是Winograd Schema挑战的赞助者之一。即使是与计算机的简单对话也需要理解常识性内容。例如,“在购物时,如果我说‘我想给我的吉他买一个盒子,它应该很牢固的’,那么,‘它’是指盒子还是吉他呢?”Ortiz提到。同时Marcus补充道,随着智能设备和可穿戴设备的普及化,理解常识的重要性将更加凸显。“当你向手表提出问题时,你不再需要在众多选择中找寻答案,”他解释说,“当你与汽车或手表交流时,希望它们能够理解前后文的连贯性。”人们日常交谈中会自然使用代词指代先前提及的事物,这要求机器能够理解和处理这样的语境关联性问题。
工业机器人
- 进阶图灵测试暴露人工智能短板:机器理解人类
- 吉林舒兰:无人机飞越80米宽河道“穿针引线”
- 2015中国(西安)国际智能制造大会暨展览会即将
- 144Hz竞速屏相当豪横!iQOO Neo3锁定年度最值5G手机
- 推动高档数控机床发展 抢占产业竞争制高点
- 又一家小米系,慌不择路?
- 从统计数据看收购是不是投资工业机器人好的退
- 创业者也能玩转人工智能和自动驾驶?
- 美女机器人购买,美女机器人购买
- 机器人编程软件都有哪些 机器人编程真的有用吗
- 智能扫地机器人图片,智能扫地机器人图片结构
- 人工智能可以治疗安卓卡顿?
- 用机器人的第三个拇指钢琴家的演奏会有更精彩
- 40个国家研发杀人机器人 缺失法律约束
- 第二代微云台防抖更出色 vivo X60系列让夜色更精
- 机器人打磨抛光设备在工业中的应用情况如何?