可让照片人物开口说话 阿里巴巴研究团队推出 AI 框架EMO

工业机器人 2025-03-26 18:17www.robotxin.com工业机器人教育

三月一日,IT之家报道,阿里巴巴科研团队推出了一款名为“EMO(Emote Portrait Alive)”的AI框架。这款框架堪称新一代“对口型”技术,只需输入人物照片及音频,就能让照片中的人物像真人一样开口说话,并且支持中英韩等多语言。

据悉,EMO框架是建立在英伟达的Audio2Video扩散模型基础上构建的。科研团队运用了超过250小时的高质量视频数据对其进行训练,使其具备了强大的能力。

从公开演示片段来看,EMO框架生成的效果极为生动真实。研究团队详细阐述了其工作原理:首先通过ReferenceNet从参考图像和动作帧中提取特征,然后通过预训练的音频编码器处理声音并将其嵌入。在结合多帧噪声和面部区域掩码生成视频的过程中,EMO框架还融合了双重注意机制和时间模块,确保视频中角色身份的一致性和动作的自然流畅。

研究团队引以为傲地表示,经过一系列严格测试,EMO不仅可生成令人信服的说话视频,还能根据不同风格生成歌唱视频。相较于目前市场上的DreamTalk、Wav2Lip、SadTalker等产品,EMO在多项指标上表现出显著优势。这项技术的推出无疑将为数字娱乐、虚拟主播等领域带来革命性的变革。

感兴趣的朋友们可以通过访问研究团队在ArXiv上发布的工作原理,或者前往GitHub查看项目,以深入了解这一令人惊叹的技术进展。▲图源研究人员发布的DEMO片段也为大家提供了直观的体验机会。

上一篇:机器人走入幼儿园 精彩表演趣味多 下一篇:没有了

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by