谷歌DeepMind发布重磅技术WaveNet：机器人的面孔天使的声音

服务机器人 2024-12-24 15:32www.robotxin.com女性服务机器人

导读：近日，谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新突破——WaveNet。

WaveNet，一种引领风潮的音频技术，通过神经网络系统对原始音频波形进行建模。它生成的音频质量超越了现有的所有文本转语音系统，极大地缩小了计算机输出音频与人类自然语音之间的差距，被誉为世界最佳。

DeepMind在Twitter上激动地表示：“让人与机器对话，一直是人机交互领域的梦想！”长久以来，我们所听到的计算机或手机输出的文本转语音音频，常常让人感觉生硬、不自然，甚至有时会让人感到困惑。而现在，DeepMind的这款新型语音合成系统WaveNet，将彻底改变这一现状，让机器输出的音频更加自然，更贴近人的真实发声。

让计算机发出声音，这并不是什么新鲜事。但DeepMind的WaveNet技术却带来了前所未有的变革。与传统的语音合成方法不同，WaveNet并不是简单地拼接语音片段或者通过参数化方法重新排列声音。

WaveNet是一种从零开始创造整个音频波形的技术。它利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络。当输入新的文本信息时，WaveNet能够重新生成整个原始音频波形，完美地描述这个新的文本信息。

在音频的合成过程中，WaveNet逐步进行操作：首先生成一个音频波形样本，然后再处理、生成下一个样本，逐步进行。每一个新的样本的生成都会受到前一个样本的影响，从而确保生成的音频流畅、自然。

试听DeepMind网站上的样例，你会发现WaveNet生成的音频结果确实令人惊叹。相比于传统的合成技术，WaveNet输出的音频更加接近人类自然的声音。

由于WaveNet需要计算整个原始音频波形，每输出一秒的音频就需要处理大量的样本，因此它需要强大的运算能力。据DeepMind向《金融时报》透露的内部消息，这一技术目前还无法应用于谷歌的任何产品中。

尽管面临强大的挑战，但DeepMind的WaveNet技术无疑是计算机语音合成领域的一大突破。与此人工智能系统还面临着翻译自然语言和手写文字等难题。但我们有理由相信，在计算机真正拥有智能思考能力的那天来临之前，它们一定能够用更加花哨的语言与人类流畅地交流。

上一篇：机器人威胁论尘嚣甚上？DeepMind 研究要教机器人服从人类下一篇：哈工大机器人如何打破科技成果转化壁垒

谷歌DeepMind发布重磅技术WaveNet：机器人的面孔天使的声音

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

谷歌DeepMind发布重磅技术WaveNet：机器人的面孔 天使的声音

家用机器人

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

谷歌DeepMind发布重磅技术WaveNet：机器人的面孔天使的声音