王小川,人工智能,搜狗,王小川,2018合作伙伴大会
搜狗有两大核心产品搜狗搜索和搜狗输入法。搜狗搜索是中国第二大搜索引擎,搜索份额占17.8%,也是全球第三大搜索引擎。搜狗搜索也在非常快地增长,最近三年在移动端搜索流量上涨470%。
搜狗输入法是全球最大的输入法,每年有超过900亿次中文输入次数,是手机第三大,仅次于微信和QQ,过去三年移动端日活用户增长136%。
1月24日下午,2018搜狗合作伙伴大会在北京国贸大酒店举行。搜狗CEO王小川难掩内心之愉悦与轻松。因为就在一个多月前(确切地说是2017年11月9日),搜狗成功登陆纽交所,首日市值53亿美元。
王小川介绍,AI开始使得搜狗搜索和输入法更上一个台阶,搜狗要打造以语言为核心的人工智能布局。本次会议,王小川还发布两大AI产品搜狗旅行翻译宝和搜狗速记翻译笔。
以语言为核心的人工智能布局
搜狗以语言为核心,分成两个层面。一方面叫做自然交互,即语音识别、语音合成,还有图像识别和合成;另一方面是知识计算,比如问答技术、翻译技术。这些技术在搜狗里面进行落地,并且开放给一些合作伙伴共建这样生态。
具体而言,搜狗的AI布局可以分为五个方面听觉、视觉、对话、问答、翻译。
1、听觉
包括语音识别、语音合成、声纹识别。王小川介绍,搜狗语音识别是全球最大在线语音识别提供商,每天有三亿次语音识别请求,服务量数据巨大,输入法也有丰富的场景。
除语音识别以外,搜狗也会做语音合成技术,在语音合成当中也有个性化能力,还提供核心的情感迁移技术。
2、视觉
包括OCR/识图、唇语识别和狗脸识别。图像识别和合成也是和语言相关的能力,第一方面就是OCR,搜狗每天有超过两百万次OCR请求,搜狗提供语音输入、输入键盘和OCR,只要一拍一扫描,就能用文字高速识别和输入。
唇语识别即将语音和图像结合,去年在乌镇世界互联网大会上搜狗发布了唇语识别系统,这套系统通过图像,不需要麦克风,只需要摄像头打在你的嘴上,通过后面图像模型和后面语言模型获得所有内容。今天唇语识别能力大大超越超过人。
跟图像更多有关系的地方,是定向的个性优化,做狗脸识别,给你爱犬拍照,系统会精确告诉你是什么狗,搜狗会把这个技术放在搜索引擎里面去提供能力。
3、 问答、对话
王小川说“在过去十年中我们做了很多,包括问答技术、对话技术,不断跟我们搜索引擎和输入法进行结合。”
输入法会走向对话,IPO那会儿,他每天一起床就有上千条微信发过来,如果输入法能够根据上下文,以个性化方式生成有自己特色的回答,让人选择,会非常有帮助。
经过高考人都知道,我们做填空题比选择题难度更大,选择题让你选轻松很多,输入法其中一个路径是把这样一个让大家输入的填空题,变成了选择题。
4、翻译
王小川表示,翻译技术走向实用化不亚于人类发明电,同样是历史突破,今天各个国家冲突,各个之间不信任是因为语言和文化引起,一旦翻译技术被解决掉,我们可以很容易获得全球信息,国外人也知道我们的内容,世界会发生变化。
搜狗的使命是让表达和获取信息更简单,有了翻译技术之后有了新的更大的进展,实现让跨国表达和获取信息变得更简单。
发布两大AI产品搜狗旅行翻译宝和搜狗速记翻译笔
目前市场上的AI翻译产品大部分是云端翻译,难以解决上网要漫游费和网络不稳定的问题。搜狗旅行翻译宝、搜狗速记翻译笔结合了神经网络机器翻译、语音识别、麦克风阵列、图像识别等多项技术。
王小川说,搜狗有自己的离线翻译技术,而且使得这样一个技术在终端设备里面执行,在离线模式下压缩,使离线模型压缩是在线模型的五分之一,在手机或者其它终端里面,压缩程度为三十五分之一。这样储存问题和识别得到解决,模型精度接近无损,并且实时响应,这也是业界领先的神经网络压缩技术。
搜狗旅行翻译宝主要解决了出境旅游时翻译APP存在的“网络不好”与“翻译不准”两大痛点,支持文本翻译、对话翻译、语音翻译、实景翻译等多种翻译模式,中英离线翻译能力让用户在未联网时也能使用。
在离线图像识别里面,要求服务器在没有网络情况下也可以工作,而且要解决很多实景问题,比如在拍路牌和菜单的时候,里面会有复杂背景,有光线问题,图片还可能扭曲有弧度,搜狗是先在翻译APP里面做尝试,进行数据优化,然后放在离线翻译机里面。
翻译笔则针对了外语学习场景,同传语音翻译实现实时对话,即说即翻的功能。两款产品均搭配了双麦克风阵列降噪,让语音识别与翻译更准确,提供英日韩俄德等17种翻译语言,覆盖主要出游国家。目前,搜狗旅行翻译宝定价为1498元,搜狗速记翻译笔定价299元,将于3月12日在京东首发。