40种语言、9项推理任务,谷歌发布新的NLP基准测
目前,全球存在着超过6900种语言,这是自然语言处理研究者们的巨大噩梦。因为大多数语言都是数据稀疏的,研究者找不到足够多的数据来单独训练成熟模型。
但幸运的是,许多语言共享大量的基础结构。比如在词汇层面上,语言通常具有源自同一来源的单词,例如,英语中的“desk”和德语中的“Tisch”都来自拉丁语“disus”。同样,许多语言也以相似的方式标记语义角色,例如使用后置位置标记中文和土耳其语的时空关系。
谷歌今天发布了一个自然语言处理系统基准测试Xtreme,其中包括对12种语言家族和40种语言进行的9项推理任务。这家科技巨头的研究人员断言,它能够评估人工智能模型是否能够学习跨语言的知识,这对于越来越多的自然语言应用程序是有用的。
谷歌也在官博上介绍了Xtreme
https://ai.googleblog./2020/04/xtreme-massively-multilingual-multi.html
这一基准测试的目标是促进人工智能多语言学习领域的研究,在这个领域,已经有大量工作研究了是否可以利用数据稀疏的语言结构来训练可靠的机器学习模型。
选择Xtreme作为基准测试是为了最大限度地扩大多样性,扩大现有任务的覆盖面,以及提供训练数据。其中包括一些未被充分研究的语言,例如在印度南部、斯里兰卡和新加坡使用的达罗毗荼语系语言泰米尔语,主要在印度南部使用的泰卢固语和马拉雅拉姆语,以及在非洲使用的尼日尔-刚果语系斯瓦希里语和约鲁巴语。
Xtreme的9项任务涵盖了一系列基本范式,包括句子分类(即将一个句子分配给一个或多个类)和结构化预测(预测实体和词类等对象) ,以及句子检索(对一组记录进行查询匹配)和高效的问答。
▲ Google的Xtreme基准支持的任务
模型要先在跨语言学习的文本上进行预训练后,才能在Xtreme上进行测试。然后,考虑到英语是最有可能具有标记数据的语言,他们必须针对特定任务的英语数据进行微调。Xtreme评估了这些模型的零点跨语言转移性能(zero-shot cross-lingual transfer performance),也就是在其他语言中没有看到任务特定的数据。对于在其他语言中可以使用标记数据的任务,Xtreme还比较了对语言内数据的微调,并通过获得所有任务的零概率得分最终得出一个综合分数。
在Xtreme初步实验中,谷歌的一个研究团队发现,即使是最先进的多语言模型,如BERT、XLM、XLM-r和M4,也都没有达到预期水平。其中,BERT对西班牙语的准确率为86.9/100,日语则只有49.2/100,要转换成非拉丁文字也十分困难,而所有的模型都很难预测到在英语训练数据中没有看到的远方语言的实体,比如,在印度尼西亚语和斯瓦希里语上的准确率分别为58.0和66.6,而在葡萄牙语和法语上的准确率为82.3和80.1。
Google Research高级软件工程师Melvin Johnson和DeepMind科学家Sebastian Ruder在一篇博客文章中写道“我们发现,尽管模型在大多数现有的英语任务中,表现已接近人类,但在许多其他语言中表现尚不足预期。,在模型和模拟环境中,英语和其它语言的表现之间仍然存在巨大差距,这也表明,跨语言迁移的研究潜力很大。”
Xtreme基准测试的代码和数据已经在GitHub上开源,还有运行各种基线的示例。
GitHub链接https://github./google-research/xtreme
特别提醒本网内容转载自其他媒体,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
扫地机器人排行榜
- 从重达百斤价值百万,到能负载2吨,外骨骼机器
- 2022年全球人工智能产业态势分析
- 超拟人数字人重磅发布,讯飞智作引流数字人新
- 低空经济破局进行时:无人机末端配送常态化,
- MDN Web 文档项目引入生成式 AI 后遭到开发者广泛
- 产教融合 校企联动 GCVC大会技术与教育论坛成功
- 中国工业互联网平台的最新观察
- 三菱电机:匠心独具 打造功率半导体行业“样本
- 玩机器人玩出“十一连冠” 碧波实小国际大赛再
- 一体化、智能化、自动化——引领模具智造 DM
- 英特尔携美国红十字会 将人工智能技术用于防灾
- 抓住人工智能“牛鼻子” 加快形成新质生产力
- 中国探月工程正打造月球版北斗系统,深空互联
- 减轻员工工作量 新加坡图书馆试用机器人管理员
- 全球机器人产业竞争中的中国策略加快追赶步伐
- OpenAI 不惜重金挖角谷歌,年薪可达 1000 万美元