人工智能干翻棋王,干不过人工转录?
在这个科技日新月异的时代,各种神奇的新产品如雨后春笋般涌现,其中,语音转录技术一直是一个看似难以攻克的难题。随着Nuance公司的声龙(Dragon)软件等先进技术的出现,我们的手机和智能家居设备已经能够听懂复杂的指令。对于实际人类交谈中的大段语块的准确翻译问题,即使是今天最先进的软件也仍然面临挑战。
如果这一难题得以解决,将会开启一个新的时代,让快速阅读者更容易摄取播客内容,让全世界的记者更方便地掌握信息,从而节省更多宝贵的时间。对于研究人员来说,这将是一个梦想成真的时刻。而对于另一些人来说,这也可能是反乌托邦时代的开端,将人类带入一个全新的文字全景监狱。实际上,随着美泰公司能与小朋友对话的语音识别“你好芭比(Hello Barbie)”娃娃的诞生,反乌托邦世界或许已经悄然来临。
人类实际交谈中的大段语块转录问题,一直困扰着研究人员。加州大学伯克利分校国际计算机研究所音频和多媒体实验室主任杰拉德·弗里德兰表示:“语音识别问题的真相是,在无解与已解两个极端之间摇曳。”微软高级科学家黄学东主持微软牛津计划(Project Oxford),为新兴语音识别创业者提供公开API。他认为人工转录的错误率约为4%,而现有的语音识别系统的结合错误率大约在8%左右。尽管这个错误率仍是人工的两倍,但与五年前相比,这一进步已经令人惊叹。黄学东从事语音识别研究已经超过三十年,他一直梦想着实现人类与计算机的自然语言交流。随着技术的不断进步,他们成功地将语音识别的错误率从十年前的80%降低到如今的8%。他预测,如果未来两到三年内继续保持这种态势,他们将能够实现普通手机与人工水平相当的语音转录能力。
与此百度机器学习团队的研究科学家卡尔·凯斯专攻百度自有的语音识别系统——深度语音(Deep Speech)。他表示深度语音在英语和汉语的现代语音系统中取得了显著的进展,但仍面临特定环境特定人员适用与任何环境任何人员可用之间的差距。他的团队已经在各种恶劣条件下进行了测试,并致力于在嘈杂环境中实现无障碍的语音识别。对于自由职业者和其他想要转录但又无法承担高昂人工费用的人来说,现有的解决方案虽然存在但不完美。一些程序员通过脚本将音频分割并上传到众包平台来节省费用,但仍需要大量准备和善后工作。TranscribeMe网站是分享经济时代的产物,它提供了一种更容易操作的众包界面,让手工转录员能够在闲暇时间进行转录工作。在这个时代,语音转录技术正在不断发展,虽然还有许多挑战需要克服,但未来的前景令人充满期待。随着技术的进步和众包模式的兴起,我们离实现高效准确的语音转录已经越来越近。谷歌文档内置的语音转录工具虽然实验性质,但仍值得一试。在测试了Skype录制的电话采访后,我们发现只有在音频语速缓慢、清晰时,其转录效果才较为理想,错误率大约在15%左右。对于想要轻松转录播客内容的人来说,恐怕只能寄希望于好运了。
在面临多声音或背景音混乱等复杂情况时,专业的语音转录软件如Nuance的声龙自然说就显得尤为出色。它经过训练后,在单声音方面的表现尤为出众。虽然有一些专家推荐采用实时听取并复述的方式来减少敲击录入的工作量,但这显然无法做到即时处理,并且仍需要采访者回顾那些较为笨拙的采访片段。
言语障碍的存在使得长段语音转录技术的实现面临挑战。罗杰·齐默曼,作为唯一一家提供商用自动长段转录应用的公司的研发主管,他表示,尽管他们通过API组合和多供应商合作,其原始转录正确率平均在80%左右,但即使经过人工校正,仍无法完全达到与人类相媲美的水平。他进一步指出,语音识别技术仍面临许多挑战,尤其是在模拟人类口语方面。他认为人类的语言过程远比当前的人工智能系统所理解的复杂得多。语音识别技术仍需要解决许多难题才能真正模拟人类的语言过程。一些专家如吉姆·格拉斯认为,语音识别技术已经存在并且正在发展之中。关键在于接受一定的错误率,并通过快速浏览转录稿来验证音频内容。他还指出企业需要找到用语音技术赚钱的方式以推动其发展。
语音转录服务中还应加入被称为“两方分类”的语者无关系统来解决多人交互时的识别问题。“富转录”领域的科学研究正在部分解决这一问题。美国电气和电子工程师学会在其期刊中专门推出了一期关于“富转录新前沿”的论文来探讨这一领域的发展。尽管如此,仍有许多问题亟待解决如非清晰语言的识别、多人对话中的错误控制等。一位负责人指出在真实环境下,如会议或多人的场景中语音识别错误率会急剧上升并且会面临一系列问题如新词汇的使用和常规噪音等。因此在实际应用中这些问题仍需解决和改进。在语音识别的领域里,有两种常见的话音频谱问题时常会造成混淆和测试失败——一种来自儿童的声音频谱,另一种则是老人的声音频谱。想象一下所有这些混乱混杂在一起的场景,真是让人倍感挫折。基于这些观察,我认为在未来很长的一段时间里,我们可能无法研发出与人类完美匹配的语音识别系统。至少在我们这一代人的时间里,这样的理想似乎难以实现。
这并不意味着我们并未生活在语音技术的黄金时代。本月,弗里德兰为我们展示了其帮助启动的Kickstarter筹款的语音识别器/语音合成器MOVI,这个设备基于开源电子原型平台Arduino,而且无需连接云端即可运作。这意味着,在没有互联网或云服务的环境下,语音识别依然能够得以实现。据弗里德兰介绍,该设备可以识别数百句话,并具备相当的适应性。这无疑是对那些必须将语音发送到云端才能处理的公司的有力反驳。在他看来,许多公司之所以依赖云端处理语音,只是利用了公众对于语音识别技术难度的高估,以及对于非云端处理的误解。如果我们能让说话者与计算机直接对话,那么就可以说我们已经解决了语音识别的问题。
至于现今的语音识别初创公司,大多数似乎都是以使用谷歌API为起点。这个领域和市场对所有级别的创新公司都是开放的,只要有成功的项目出现,随之而来的未知社会变革可能会带来许多意想不到的惊喜和挑战。
工业机器人
- 人工智能干翻棋王,干不过人工转录?
- 世界人工智能先驱告诫中国人:硅谷是模仿不出
- 猎户星空消杀机器人正式发布 五大进阶功能凸显
- 人工智能手机面世,情感机器人已成未来必然?
- 语音助手们红了,但它真的能在未来取代手机吗
- 机器人行业成长前景广阔 产业链公司迎来重大机
- 富士胶片再登澳门BEYOND Expo 多元展示技术创新理
- 威富、大华、天地伟业大秀AI肌肉,成功实战演示
- 乐高机器人玩具视频,乐高,机器人
- 乐高课程一年大概多少钱 乐高课程一年6000贵吗
- 人工智能机器人哪个品牌好 人工智能机器人专业
- 机器人工程一般学什么 机器人工程一般学什么专
- 人工智能机器人未来发展趋势 人工智能机器人发
- 关于印发《京九(江西)电子信息产业带三年行
- TCT参与旁听Stratasys & Desktop Metal与联合交易投资
- 未来科技前瞻3D打印技术现状与未来趋势预测报告