谷歌DeepMind发布重磅技术WaveNet:机器人的面孔 天使的声音
导读:近日,谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新突破——WaveNet。
WaveNet,一种引领风潮的音频技术,通过神经网络系统对原始音频波形进行建模。它生成的音频质量超越了现有的所有文本转语音系统,极大地缩小了计算机输出音频与人类自然语音之间的差距,被誉为世界最佳。
DeepMind在Twitter上激动地表示:“让人与机器对话,一直是人机交互领域的梦想!”长久以来,我们所听到的计算机或手机输出的文本转语音音频,常常让人感觉生硬、不自然,甚至有时会让人感到困惑。而现在,DeepMind的这款新型语音合成系统WaveNet,将彻底改变这一现状,让机器输出的音频更加自然,更贴近人的真实发声。
让计算机发出声音,这并不是什么新鲜事。但DeepMind的WaveNet技术却带来了前所未有的变革。与传统的语音合成方法不同,WaveNet并不是简单地拼接语音片段或者通过参数化方法重新排列声音。
WaveNet是一种从零开始创造整个音频波形的技术。它利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络。当输入新的文本信息时,WaveNet能够重新生成整个原始音频波形,完美地描述这个新的文本信息。
在音频的合成过程中,WaveNet逐步进行操作:首先生成一个音频波形样本,然后再处理、生成下一个样本,逐步进行。每一个新的样本的生成都会受到前一个样本的影响,从而确保生成的音频流畅、自然。
试听DeepMind网站上的样例,你会发现WaveNet生成的音频结果确实令人惊叹。相比于传统的合成技术,WaveNet输出的音频更加接近人类自然的声音。
由于WaveNet需要计算整个原始音频波形,每输出一秒的音频就需要处理大量的样本,因此它需要强大的运算能力。据DeepMind向《金融时报》透露的内部消息,这一技术目前还无法应用于谷歌的任何产品中。
尽管面临强大的挑战,但DeepMind的WaveNet技术无疑是计算机语音合成领域的一大突破。与此人工智能系统还面临着翻译自然语言和手写文字等难题。但我们有理由相信,在计算机真正拥有智能思考能力的那天来临之前,它们一定能够用更加花哨的语言与人类流畅地交流。
家用机器人
- 谷歌DeepMind发布重磅技术WaveNet:机器人的面孔 天
- 机器人威胁论尘嚣甚上?DeepMind 研究要教机器人
- 合肥来了一群厉害的机器人
- 一起感受大运会的智能黑科技3D照相馆、乒乓球机
- 业界热论机器人创投圈那点事:要把投资人当“
- 成都大运会:计划减少碳排放2.3万余吨 大运村配
- 光靠自动化解决不了人工问题
- 2022华为全球轨道峰会助力轨道交通行业数字化转
- 拿下A轮近亿元融资,长广溪智造强势登陆上海工
- ADVANCE.AI正式发布星鉴数字身份验证与风险管理解
- 唐山智造赋能为“机器人兵团”提速
- 再添“神队友”!深圳这家医院完成机器人辅助
- 广西深化中国—东盟信息港建设打造人工智能合
- 机器人未来小镇展示全场景应用
- 触摸显示未来就在第十九届光电显示展
- 德邦科技,粘力十足