访北大计算机系教授万小军:写稿机器人是新媒

行业资讯 2019-08-15 22:26www.robotxin.com人工智能机器人网
   7月8日,由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的AI盛会「全球人工智能与峰会」(CCF-GAIR)进入火热的第二天。各分会会场人头不减,大家在细分领域深入探讨交流的激情更盛。
 
  作为AI+专场的开场嘉宾,北京大学计算机科学技术研究所研究员万小军发表了主题为《机器写稿技术与》的演讲。会后,不少媒体朋友上前与万小军交流,期望能将“机器写稿技术”引入自家媒体。
 
  机器人写稿并不是一个全新的话题了。2016年8月,万小军带领的北大计算机所与今日头套实验室联合推出新一代AI写稿机器人——奥运AI小记者Xiaomingbot。2017年1月,万小军与南方都市报合作研发写稿机器人“小南”。“小明”和“小南”备受关注,引发很多争论,正如邻居小朋友每次考了高分都会让你紧张一样,机器人在智能上的每一次进步,都让人类担心自己的饭碗不保,不少小编“哭晕在厕所”。
 
  当南方都市报将“小南”看作自己的“新同事”的时候,万小军却对雷锋网编辑说,“在我眼里,写稿机器人就是一个程序,目前看到的更多的还是不足。”十几年前,万小军就开始做自然语言处理,开始关注其在新闻上的应用,写稿机器人并不是一个凭空跳出来的拥有华丽简历的神同事,而是技术不断推进和媒体环境变化的产物。在雷锋网对万小军的专访中,我们抛开人工智能何时能超越人类, 机器人能不能自主思考这样漫漫而谈的终极话题,一起来看看这个专注于新闻领域的计算机教授究竟在做什么。
 
  新闻是做自然语言处理最规范的文本雷锋网您专注的自然语言处理技术主要有哪些应用场景?
 
  万小军自然语言处理在很多方面都有应用价值,现在的智能问答、人机交互都需要语言的处理,比如说现在的语音交互就需要机器对语言的理解,执行使用者的指令。机器翻译、机器写稿都是可应用的方面,机器写稿更侧重于自然语言的生成,是说根据语义数据去生成自然语言文本,机器的语言理解和语言生成是两个相反的过程。
 
  人机对话中也会用到自然语言的生成,机器理解用户的问话之后,要生成语言来回答。在文化娱乐方面,也可以用自然语言生成技术来生成诗词、对联等。
 
  雷锋网同样都是自然语言生成,人机对话中的语言生成和机器人写稿的语言生成有什么不一样?
 
  万小军是长短不一样,人机对话中生成的回复文本一般比较短,多数情况下只生成一个句子,而机器人写稿则要生成包含多句话的完整文章,写稿过程中需要重点考虑篇章结构组织以及语句之间的连贯性。另一方面,对话的生成要重点考虑跟多轮上下文的衔接,也就是“语境”,而写稿的时候没有这种考虑,能够把一件事情说清楚就行了。,人机对话的语言表达可以比较口语化,但机器写稿倾向于使用比较规范和正式的语言表达。
 
  雷锋网您如何评价微软小冰和度秘这一类的语音助手或者说聊天机器人?
 
  万小军做聊天机器人如果不限领域的话其实很难做,如果限定一个领域的话就可以做的相对较好,例如专注于天气、体育或者财经。如果允许天马行空地发问,机器人回复的难度就很大。,针对一个狭窄的领域则可以做得很精细,比如就是针对某类产品的客服机器人。现在的“问答机器人”回答的是相对简单的事实型问题,像“百度知道”里绝大部分问题都是复杂型问题,问的是怎么样安装Windos, 托福怎么样考高分,怎么样上北大清华这样的问题,这些问题机器不好回答。你要问中国的首都在哪儿,就很好回答,iki里都有,抽取出来放到知识库就可以了。现在的智能问答聊天系统还不能回答复杂的问题,解释事情的原委以及对比。我们得一步一步来,先解决简单的然后再考虑复杂的,如果一开始就把复杂的情况都考虑进来那就没法做了。
 
  雷锋网您在2004年就有论文关注新闻摘要提取,自然语言处理的应用领域很多,为什么选择并且一直专注在新闻领域?
 
  万小军自然语言处理的各项研究最早都是针对新闻语料开始做的,因为新闻是最规范的文本。如果一开始就在微博、微信和用户评论这样的不规范的文本去做,挑战会很大。所以像“自动分词”、“句法分析”、“语义分析”、“自动摘要”这些自然语言处理任务一开始的测试语料都是新闻文本。我们先看在新闻文本上能不能做好,再去考虑其它的,因为新闻相对于其他文本来说是最简单的。
 
  雷锋网用在新闻上的算法能够应用在别的文本吗?
 
  万小军应该是可以的,在精度上肯定是有变化的。比如说“分词”这个事情,你在新闻上面分可以达到95%以上,在微博上可能会降几个点,因为难度会更高,方法是可以用的。也可以进一步做些针对性处理,提高精度。
 
 
  雷锋网您从事新闻文本挖掘已久,您怎么看待新闻这种文字体裁?机器人的新闻写稿得符合哪些基本的要求?(还需要传统的新闻五要素、客观性、准确性这些标准吗?)万小军在互联网时代,新闻的定义已经跟原来不一样了。以前要求新闻要客观准确,而目前网络上标题党横行,很吸引眼球,很多人看。自媒体时代,人人都可以写稿,新闻不再只是由专业写稿人生产。现在更重要的是实时、有趣。自媒体时代每个人都在发声,机器将微博内容和评论整合起来就能出一篇新闻,这在以前是没有的。新闻的定义在互联网时代发生了变化。
 
  雷锋网新媒体时代的新闻已经发生了变化,您在与新媒体和传统媒体公司合作“写稿机器人”的时候,感受到新媒体与传统媒体哪些不同?
 
  万小军他们对机器人写稿的看法有不一样。今日头条会将Xiaomingbot生产的内容直接发布,南都还是比较传统一点,在发布到自己的app上时还是会经过人工审核。从传统媒体的立场,他们希望发布的信息要很准确。而自媒体更注重量大,侧重时效,吸引用户阅读。
 
  雷锋网您与今日头条Xiaomingbot写稿机器人的合作是如何开始的?
 
  万小军刚开始也是机缘巧合。我们团队当时在ACL上发表了一篇论文(《Toards Constructing Sports Nes from Live Text Commentary》),是一篇关于利用体育直播文字进行新闻稿写作的论文,我们当时已经做出了DEMO。当时正是2016年里约奥运,他们看到了我们的论文,邀请我们去做报告,然后在两周内,我们就将写稿机器人产品做出来了。我们这次的研究离实用很近,双方的对接也很简单。
 
<

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by