Alexa语音王国迅速扩张的今天,它最大的挑战是什么?

生活知识 2024-12-21 14:17www.robotxin.com生活百科

自1990年代起,George Anders便开始密切关注亚马逊的发展,他的笔尖流淌出的文字为我们揭示了一个关于亚马逊与Alexa的世界。从四位亚马逊工程师在2012年提交的一份专利申请文件开始,Alexa这个能处理人类语音的智能系统应运而生。一个安静房间里传来的简单指令:“请播放《Let It Be》,披头士的音乐。”一台桌面机器应声回答:“没问题,John。”自此,面向家庭的语音AI成为亚马逊的一大业务。与此亚马逊面临着来自谷歌、苹果、三星和微软等科技巨头的激烈竞争,他们都希望开发易于使用的语音设备。其中Witlingo公司的CEO Ahmed Bouzid认为:“过去我们依赖技术去输入指令,如今新用户界面则依赖我们的声音。”自Alexa诞生以来,其设备销量已经突破千万大关。在美国的语音AI设备市场中,亚马逊占据了压倒性优势。尽管竞争愈发激烈,但亚马逊仍在家庭自动化、家庭娱乐和购物这三个市场中寻求发展机会。尽管亚马逊目前并不打算从制造设备的公司那里赚取收入,但未来可能会与企业达成营收分成协议或采取其他付费方式。家庭自动化市场虽然规模相对较小,但前景广阔。亚马逊通过销售Alexa设备赚钱,同时一些企业正在开发兼容Alexa的硬件和服务。例如Capital One正在向银行客户提供Alexa支付系统。面临挑战尽管语音AI前景广阔,但它也面临着巨大的技术挑战。人类说话时的混乱表达、单词使用方式的奇特、干扰以及想法的变化都为这一领域带来了挑战。亚马逊正在召集数千名员工来解决这些问题,包括机器学习专家等。Alexa首席科学家罗希特·普拉萨德解释了为何需要如此多的人才来完善这一技术:“创造一个真实高效的语音AI是一项复杂的、从未被征服的任务。”随着与用户的相处时间增长,Alexa收集的数据增多,学习到的知识也就越多,因此其能力也会越来越强大。这一切都需要大量的人力投入来实现。在这个充满挑战与机遇的时代里,语音AI的发展前景令人充满期待。普拉萨德分享了Alexa的一个新功能。比如说,当你问:“Adele的第一张专辑是什么?”Alexa能够精准地回答你:“是‘19’。”如果你进一步命令:“播放它。”现在的Alexa已经能够聪明地识别并播放这张专辑。

面对更复杂的问题,比如询问专辑的发行年份或销量,早期的Alexa可能无法处理。但现在,随着机器学习技术的不断进步,Alexa已经能够在某些情况下理解并处理这些复杂的问题。这是因为机器学习让Alexa能够从失败中学习,知道“它”指的是“19”。这是一个重要的里程碑。

MIT口语语言系统研究团队的主管James Glass谈到了机器学习的应用方法:“我们需要基于人们日常的交流方式去推测他们的需求,然后收集数据、调整模型。”现在,亚马逊拥有庞大的语音交互数据库,得益于Alexa的广泛应用。在2016年,Alexa引入了一个包含大量歌曲歌词的数据库,这使得用户可以通过歌词来请求歌曲,比如:“播放包含‘drove my Chevy to the levee’的歌曲。”

普拉萨德重视一个新项目的推行,它关注在用户对最初请求反悔时,系统如何正确识别。用户的否定表达形式各异,Alexa不必理解每一种表达。依靠大量的样本和半监督机器学习技术,系统可以识别否定语音中的关键标记,并根据新的明确请求进行调整。

为了让Alexa成为更好的倾听者,亚马逊AI专家首先通过大量数据训练系统,让它更自然地说话。他们优化机器合成的女性声音,使其语调更完美,以此鼓励用户持续使用。不同于传统方法依赖录制的人类语音片段来合成语音,亚马逊采用了一种新方法。他们使用专业解说员的声音训练系统,这些声音充满各种情感。Audible公司的帮助使得亚马逊机器学习算法能让Alexa进行各种情感的表达,既可以进行活跃的对话,也可以完成平静的朗诵。

对于那些无法在平板手机上轻松输入的人来说,语音AI成为了他们的福音。Gavin Kerr是Inglis的CEO,该公司正在为残疾人提供住房和服务。他们已经在一些客户的家中安装了Echo和Dot设备,这些设备为居民带来了难以置信的便利,让他们过上了更独立的生活。对于因疾病而行动不便的人来说,控制恒温器成为了一大难题。Kerr提到:“他们很难适应温度的变化。”他们很难让自己过得舒适。但通过Alexa软件稍作调整,他们就能通过特定的语音指令享受服务。一名男子因长期住在看护机构而渴望回归社区生活。Kerr回忆道:“我们根据他的需求调整了软件。”现在他可以像与家人交流一样使用语音控制设备。

Inglis为用户提供简单的Echo操作培训,时间仅需四小时。用户可以在智能手机或平板上调用Alexa控制面板进行调整设置,还可以下载新的App并跟随引导选择最适合自己的提示音。每周,Alexa的总经理都会查看统计数据以了解用户最常用的表达方式。音乐、新闻、天气信息、交通信息和游戏是最受欢迎的功能类别。在这个春天的声音洪流中,有一个特别的请求如雨后春笋般崭露头角:“Alexa,帮我放松一下。” 当用户发出这样的指令时,智能的Alexa系统会为他们播放一系列安抚人心的声音。这些声音或许是自然之声,如鸟鸣啾啾,波涛拍岸;或许是人为创造的声音,如货运列车穿越夜晚的隆隆声。只要用户愿意,这些声音可以持续播放数小时,成为他们心灵的摇篮曲。

回想2015年,当类似的App首次在Alexa平台上亮相时,它们曾被视为新奇玩物,甚至被普契尼一笑置之。这些App迅速崭露头角,吸引了大量用户的青睐。无论是压力重重的成年人需要它们来帮助入眠,还是父母们把它们当作安抚哭闹婴儿的摇篮曲,这些声音都发挥了神奇的效果。短短几周后,普契尼和他的团队迅速调整了Alexa的内容架构,确保当用户询问新“技能”时,能够轻松找到这些令人放松的声音。

语音AI领域的竞争愈发激烈。谷歌助手、苹果Siri、微软Cortana以及亚马逊Alexa都在努力挖掘自己的优势领域。其中,Alexa在购物指令方面的表现尤为出色。若语音AI希望获得最终胜利,它们必须实现一种更深层次的交流——一种能持续数分钟、真实而富有深度的对话。这需要机器拥有强大的能力,不仅要理解人类说话者的字面意思,还要洞察其潜在意图,甚至识别出微妙的、非字面的请求。

想象一下,当朋友谈论“我已经几周没去健身房了”,人类可以感受到其背后的压力或自尊问题。但对于AI软件来说,理解这种深层含义却是一项艰巨的挑战。突然的转话题或含糊的请求常常让AI陷入困惑,无法跟上节奏。为了培养下一代AI语音研究人才,亚马逊发起了挑战:邀请工程学学生开发能进行20分钟对话的机器人。尽管奖金高达50万美元,但遗憾的是,目前尚无机器人能够完成这一任务。即使是那些模仿报纸评论电影《隐物》的机器人,虽然开始时能够流畅对话,但很快就陷入了困境。测试过程中,它们往往无法保持话题的一致性,让人困惑不已。尽管如此,普拉萨德依然坚信这是一个充满潜力的领域。他表示:“如果机器人能够达到这样的对话水平,那么Alexa将展现出真正的智慧。”要达到这个目标并不容易,甚至比围棋或国际象棋这些传统游戏更难。因为在对话中,我们永远无法预测对方想要达到的目的。如果Alexa能够克服这一挑战,那么真正的对话时代将指日可待。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by