汤晓鸥:人工智能的中国式文艺复兴

人工智能 2019-08-15 19:56www.robotxin.com人工智能专业
   1月28日,香港中文大学信息工程系教授、商汤科技创始人汤晓鸥在新兴科技峰会EmTech China上发表了题为《人工智能的中国式文艺复兴》的演讲。
  商汤科技创始人汤晓鸥
 
  下文为演讲内容整理
 
  今天,我讲的题目是《人工智能的中国式文艺复兴》,这个题目我在上海讲过一次,我这个人不太喜欢重复自己,于是我又想了一个新的题目——《人工智能的中国式十月革命》。
 
  言归正传,我想大部分中国人都应该知道《战狼》,一下子赚了56亿。这在15、20年前是不可能的;那时候很多人会去买盗版的VCD,或者去网上下载一个盗版。如果这样,导演和演员也就没有动力再继续坚持下去了。今天,中国的成果最重要的推动力就是我们对原创和版权的尊重。
 
  我们现在不是只有一部电影这样成功,比如《羞羞的铁拳》赚了22亿,《芳华》达到14亿的票房,《前任3》是18亿,《无问西东》做到了5亿票房。所以,对原创的尊重使得中国的原创电影不断往前发展。在三四十年代,全球电影发展起来时,中国电影并不落后,像《马路天使》、《一江春水向东流》一点也不输给好莱坞电影。
 
  再往前,说一下文艺复兴的时候,如果米开朗基罗的这些作品或者任何一个艺术品很快有人进行复制,那么他可能也赚不到钱活不下去,所以,对于原创的尊重也是文艺复兴能真正兴起的一个原因。
 
  说到原创,下面我们来讲讲人工智能。如果我讲人工智能,大家第一能想到什么公司?是谷歌。但总有一天,人工智能热潮会过去的,到那天大家一定能想到商汤科技。
 
  为什么是谷歌?因为谷歌真的把资金投入人工智能发展,2015年的研发经费达120亿美金。2014年有一家公司叫DeepMind,只有12个员工,没有赚钱,只是在用深度学习玩游戏和下棋,谷歌花费6.6亿美金收购了这家公司。如果是在中国,大家就会花几百万美金把人一个个挖过来,那要便宜得多。如果那样做的话,就不会有后来的AlphaGo了。 AlphaGo之后,谷歌又做了AlphaGo 2和AlphaGo Zero,有些公司开始学着AlphaGo下围棋,还有的公司选择打扑克牌,但从某种意义上讲,这都是跟在别人的后面做事情。
 
  真正有意义的事情是在AlphaGo之前你做了什么?有没有做什么事情让机器在某项任务上战胜人类。在AlphaGo之前我们做了一件事情,2014年,我们团队从事人脸识别,在全球第一次让机器的人脸识别能力超过了人的眼睛,像AlphaGo一样,在某一个人类定义的单项任务上,机器超越了人类。
 
  超越了人类就过了一条红线,而过了这条红线就可以在工业上进行。在真正应用的时候,发现过了红线还是不够用,从实验室到大规模产业化还有很长的路要走。2014年,我们用20万人脸来对机器进行训练做到了98.5%的准确率,而人是97.5%;2015年我们用30万人脸进行训练,达到了99.55%的准确率;2016年,我们用6000万人脸训练可以达到了百万分之一的误识率;2017年,我们用20亿人脸训练可以达到一亿分之一的误识率,而这样的误识率才可以真正地应用到各行各业,包括监控、金融、安防、手机等行业。所以,我们和高通签署了全球AI战略合作协议。
 
  那么除了人脸识别,我们现在还做什么?这个技术是行为检测,我们用计算机视觉分析的方法,可以从很长的一段里把重点内容检测出来,你就可以直接跳过没有意义的部分,直接看这些有趣的、真正的镜头。还有基于内容的搜索,在电影中我们可以把各种各样的片段搜索出来,比如说你想搜索武打动作片段,或者喜剧片段,我们可以直接把它搜索出来,或者你想搜索科幻的,我们可以把科幻的片段搜索出来。
 
  以及用自然语言描述来进行场景搜索,我们用自然语言来描述一个电影中的场景,然后它就可以自动根据你的描述把这个电影片段搜索出来,比如,我们要搜House of Cards中的一个片段,“Claire和Frank坐在蓝色沙发上”,大家看到下面这段场景就出来了。,我们不但能把视频分析出来,还能理解这个视频,然后用自然语言描述出来。比如下面这些运动视频,机器就可以像解说员一样来描述运动场上发生的事情。
 
  IJCV是我们这个领域的两大顶级杂志之一,作为IJCV的主编,我会在每年的ICCV和CVPR两个计算机视觉顶级会议上,主办IJCV Night晚会,邀请几百位顶级学者参加。下面这个演示里我们把电影场景里的所有物体都检测出来,演员是哪一个演员,他穿的是什么衣服,这个场景是在餐厅里,所有的桌子、花、椅子全部能够实时的自动检测出来,这样的技术在以前是非常难的,现在我们都可以做到了。
 
  再回头来看我们如何用这些技术来分析前面提到的电影《战狼》和《羞羞的铁拳》,我们通过分析这些演员的动作和他们之间的关系,可以分析出来在不同的场景之下,这两个演员是谁,在做什么,这个片段是什么类的情节。
 
  ,我们可以识别每一帧情节分类,每一个镜头是打斗场景还是恋爱场景。我们也可以把一个电影最精彩的镜头提取出来,大家可以挑选比如动作的精彩镜头、感情戏的精彩镜头、悲剧的精彩镜头等等。
 
  那么起来,我们在做什么呢?我们是在教机器看电影,一开始我们是教机器来识别人脸,Google是在教机器来下围棋,而现在我们来教机器代替人看电影。这个感觉有点怪,我们让机器来做下棋,看电影,玩游戏这些有趣的事情,然后我们人类只负责给机器充充电,维修和保养。
 
  我觉得大家听了这个一定觉得很可笑。实际上所有的任务,都是我们人安排给机器做的,机器是按照我们的指令在做事情,不存在机器控制人类这样的事情,AI的真正目的是帮助人类,帮助我们提高生产效率。
 
  给年轻人留下两句话第一句,电影一定要自己亲自去看。第二句,AI这个词在中国拼音翻译过来就是“爱”,所以谈恋爱也要自己亲自去谈,否则你就不止“前任3”了,很有可能“前任4”、“前任5”了。
<

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by