谷歌DeepMind发布重磅技术WaveNet:机器人的面孔 天使的声音

服务机器人 2024-12-24 15:32www.robotxin.com女性服务机器人

导读:近日,谷歌旗下人工智能公司DeepMind公布了其在计算机语音合成领域的最新突破——WaveNet。

WaveNet,一种引领风潮的音频技术,通过神经网络系统对原始音频波形进行建模。它生成的音频质量超越了现有的所有文本转语音系统,极大地缩小了计算机输出音频与人类自然语音之间的差距,被誉为世界最佳。

DeepMind在Twitter上激动地表示:“让人与机器对话,一直是人机交互领域的梦想!”长久以来,我们所听到的计算机或手机输出的文本转语音音频,常常让人感觉生硬、不自然,甚至有时会让人感到困惑。而现在,DeepMind的这款新型语音合成系统WaveNet,将彻底改变这一现状,让机器输出的音频更加自然,更贴近人的真实发声。

让计算机发出声音,这并不是什么新鲜事。但DeepMind的WaveNet技术却带来了前所未有的变革。与传统的语音合成方法不同,WaveNet并不是简单地拼接语音片段或者通过参数化方法重新排列声音。

WaveNet是一种从零开始创造整个音频波形的技术。它利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络。当输入新的文本信息时,WaveNet能够重新生成整个原始音频波形,完美地描述这个新的文本信息。

在音频的合成过程中,WaveNet逐步进行操作:首先生成一个音频波形样本,然后再处理、生成下一个样本,逐步进行。每一个新的样本的生成都会受到前一个样本的影响,从而确保生成的音频流畅、自然。

试听DeepMind网站上的样例,你会发现WaveNet生成的音频结果确实令人惊叹。相比于传统的合成技术,WaveNet输出的音频更加接近人类自然的声音。

由于WaveNet需要计算整个原始音频波形,每输出一秒的音频就需要处理大量的样本,因此它需要强大的运算能力。据DeepMind向《金融时报》透露的内部消息,这一技术目前还无法应用于谷歌的任何产品中。

尽管面临强大的挑战,但DeepMind的WaveNet技术无疑是计算机语音合成领域的一大突破。与此人工智能系统还面临着翻译自然语言和手写文字等难题。但我们有理由相信,在计算机真正拥有智能思考能力的那天来临之前,它们一定能够用更加花哨的语言与人类流畅地交流。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by