AI虚拟人离我们越来愈近
机器人与观众现场互动:开启沉浸式“云旅游”之旅
想要足不出户游览祖国大好河山吗?与表情丰富、情感细腻的虚拟导游展开一场对话吧!无需穿戴任何设备,即可打破空间界限,即刻带你穿越到旅游景点,身临其境地感受美景,远观近瞧随心所欲。这个AI虚拟导游,就是我们强大的AI虚拟人,它集成了“讯飞超脑2030计划”的多项前沿技术,包括多模感知、多维表达、深度理解等,使得真实人与虚拟人之间的对话可以自然穿越不同场景,为人机交互带来了全新的沉浸式体验。
在2022年科大讯飞全球1024开发者节上,科大讯飞AI研究院副院长高建清以“AI新纪元,讯飞超脑2030”为主题,揭示了“讯飞超脑2030计划”的阶段技术突破。他表示,随着AI虚拟人的诞生,一大批预演未来的创新应用将逐渐走进百姓生活,让AI惠及每个人。
“讯飞超脑2030计划”赋能AI虚拟人更深入的理解知识。以回答“面包在低温下会马上发霉吗”这一问题为例,AI虚拟人需要理解“低温变质慢”等常识,并在引入海量知识的基础上,用预训练模型进行知识重要性排序,融合知识与问题进行推理,才能与人畅聊关于面包变质的二三事。而要让AI虚拟人拥有这种知识推理能力,必须依赖“超脑”赋能。
作为“讯飞超脑2030计划”的阶段性成果,今年,科大讯飞已经打造多款专业虚拟人,为金融、电信、媒体等行业提供专业虚拟人解决方案,为“数字经济”服务。这些虚拟人不仅可以满足各场景的播报需要,还可以出色地完成主持、客服、陪伴、直播等交互工作,提供导航导览、业务知识、生活服务、信息查询等交互式AI服务。
科大讯飞的AI技术还支持多种语言和方言的播报。目前,科大讯飞虚拟人播报支持包括中文、英语、日语、韩语、西班牙语等多种语言及四川话、粤语、藏语、维吾尔语等多种方言。
在交互系统方面,科大讯飞也取得了重大突破。今年,依托科大讯飞建设的认知智能国家重点实验室相关团队在认知智能技术方面取得了多项国际冠军,证明了AI虚拟人在常识推理方面的强大能力。随着核心源头技术创新和系统性创新的持续突破,AI虚拟人的语义理解和对话生成能力更加强大。
当你想向AI虚拟人了解电影《独行月球》的内容时,它也能轻松应对。基于语义图网络的开放场景语义理解技术让AI虚拟人更深入地理解用户意图,从而更准确地回答问题。“唇形+语音”的多模态语音增强技术也让机器在嘈杂环境中更准确地获取语音信息,唤醒智能语音交互新模式。这种多模态感知方式让机器获取更多有用信息成为可能,逐步向拟人化方向发展。随着技术的不断进步和应用场景的拓展我们期待机器人与人类的交互将更加自然流畅进入一个全新的智能时代。讯飞攻克复杂场景语音难题,全新多模态技术引领智能沟通新时代
科大讯飞再次突破技术边界,成功挑战商场、医院、地铁等复杂场景的语音识别难题。最新推出的多模态语音增强与识别框架,将语音技术推向新的高度。结合视频信息输入,该技术充分利用人脸、唇形、语音等多模态信息的互补优势,能够在嘈杂环境中精准识别出主说话人的声音,显著提升了开放场景的沟通效率。
想象一下,在熙熙攘攘的商场或是人声鼎沸的地铁里,搭载多模感知技术的应用系统能够像“顺风耳”一样,只“听”到你的声音,不受周围嘈杂声音的干扰。这一创新方案极大地改善了用户的主观理解度,真正站在用户体验的角度优化了系统。高建清表示,这一算法解决了语音识别准确率高但用户体验不佳的现实问题。
除了语音识别的突破,科大讯飞还在智能语音合成技术领域取得了令人瞩目的成果。如何赋予机器类似人类的声音一直是该领域的难题。而科大讯飞的SMART-TTS系统成功实现了多风格多情感合成,让语音合成从简单的信息播报跃升为具备喜怒哀乐情感的语音助手。
SMART-TTS系统能够模拟多达11种情感,每种情感还有20档强弱度可调。用户还可以根据自己的喜好调节声音的停顿、重音和语速。这项技术的实现,让人机交互更加自然,真正实现了个性化真人表达能力。
随着技术的不断进步,科大讯飞还在声音和虚拟形象生成方面取得了显著进展。通过语义可控的声音和形象生成技术,只需简单的文字描述,如“一头长发”,系统便能智能生成温柔大方的女性形象,声音甜美而不失端庄;输入“英俊潇洒”,则能生成商务范儿的男生形象,声音磁性十足。
更令人惊喜的是,科大讯飞还实现了语音语义驱动的动作合成。通过理解和把握语音的节奏和韵律,虚拟人能够随时流畅地切换动作,展现出更加自然的肢体语言。这一技术的问世,无疑将人机交互体验提升到了全新的水平。