新的测试显示 AI 仍然缺乏常识

机器人技术 2021-05-31 09:22www.robotxin.com机器人技术

尽管取得了进步,但最先进的系统仍然会产生"两只狗互相扔飞盘"这样的句子。来源阿德里亚娜桑切斯。

(NLP) 最近取得了长足的进步,但 AI 对它所读内容了解多少?据南加州大学计算机科学系的研究人员说,比我们想象的要少。在最近的一篇论文中,任翔副教授和博士生林玉晨发现,尽管取得了进步,人工智能仍然没有产生似是而非的句子所需的常识。

"目前的机器文本生成模型可以写一篇能让许多人信服的文章,但他们基本上是在模仿他们在训练阶段所看到的情况,"林说,"我们本文的目标是研究当前最先进的文本生成模型是否可以写句子来描述我们日常生活中的自然场景的问题。"

了解日常生活中的场景

具体来说,任和林测试了模型的推理能力,表明当前文本生成模型与人的表现存在较大差距。给定一组常见的名词和动词,最先进的 NLP 计算机模型的任务是创建描述日常场景的可信句子。虽然模型生成语法正确的句子,但它们在逻辑上往往不连贯。

例如,下面是一个使用"狗、飞盘、投掷、捕获"等现代模型生成的句子

"两只狗互相扔飞盘。

测试基于这样的假设如果对常识概念有更深入的认识,就无法产生连贯的想法(在这种情况下"一个人扔飞盘,狗抓住它")。换句话说,常识不仅仅是对语言的正确理解,它意味着你不必在谈话中解释所有内容。这是开发通用人工智能目标的根本挑战,但除了学术界之外,它对于消费者也相关。

如果不了解语言,基于这些最先进的自然语言模型构建的聊天机器人和语音助手就容易受到失败的影响。机器人要在人类环境中变得更有作为也至关重要。毕竟,如果你向机器人要热牛奶,你期望它知道你想要一杯牛奶,而不是整个纸箱。

"我们还表明,如果一代模型在我们的测试中表现更好,它也可以有利于其他需要常识推理的应用,如机器人学习,"林说,"机器人需要了解我们日常生活中的自然场景,然后再做出合理的行动与人互动。"

常识测试

常识推理,或者利用世界基本知识进行推论的能力比如狗不能互相扔飞盘数十年来一直抵制人工智能研究人员的努力。最先进的深度学习模型现在可以达到 90% 左右的准确率, NLP 似乎已经接近其目标。

但任,专家和他的学生林,需要更令人信服的这个统计的准确性。在11月16日发表在经验方法(EMNLP)会议上的论文中,他们质疑基准的有效性,,该领域实际取得的进展水平。

由最先进的文本生成模型生成的句子示例。来源 来自论文 "共同基因 对生成常识推理的受限文本生成挑战。

"人类通过学习理解和使用他们在周围环境中识别的常见概念,获得了撰写句子的能力,"林说。

"获得这种能力被认为是人类发展的一个重要里程碑。,我们想测试机器是否真的能够获得这种生成常识推理能力。

为了评估不同的机器模型,该组合开发了一个名为 CommonGen 的受限文本生成任务,该任务可用作测试机器生成常识的基准。研究人员提出了一个数据集,由35,141个概念与77,449个句子相关。他们发现,即使性能最好的模型,其准确率也只有31.6%,而人类的准确率为63.5%。

"我们惊讶地发现,这些模型无法回忆起简单的常识性知识,即'人类扔飞盘'应该比狗扔飞盘更合理,"林说,"我们发现,即使是最强的模型,称为T5,经过一个大型数据集的训练,仍然可以犯愚蠢的错误。"

研究人员说,以前的测试似乎对模型的常识能力没有充分挑战,而是模仿他们在训练阶段所看到的。

"以前的研究主要侧重于歧视性的常识,"任说。他们测试的机器有多种选择问题,其中机器的搜索空间很小,通常为四到五个候选者。

例如,歧视常识测试的典型设置是多项选择问题回答任务,例如"成年人在哪里使用胶棒?A 教室B办公室C书桌抽屉。

,这里的答案是"B办公室"。即使是电脑也不用太麻烦地找出来。相比之下,生成设置更开放,例如 CommonGen 任务,其中要求模型从给定的概念生成自然句子。

任先生解释说"通过广泛的模型培训,在这些任务上有良好的表现是很容易的。与那些具有歧视性的常识推理任务不同,我们提议的测试侧重于机器常识的生成方面。

任和林希望该数据集将作为一个新的基准,以利于未来关于将常识引入自然语言生成的研究。事实上,他们甚至有一个排行榜,描绘了各种流行模型获得的分数,以帮助其他研究人员确定他们在未来项目的可行性。

"机器人需要了解我们日常生活中的自然场景,然后再采取合理的行动与人互动,"林说。

"通过向机器介绍常识和其他特定于领域的知识,我相信有一天,我们可以看到像萨曼莎这样的人工智能代理在电影《她》中产生自然的反应,并与我们的生活互动。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by