可让照片人物开口说话阿里巴巴研究团队推出 AI 框架EMO

工业机器人 2025-03-26 18:17www.robotxin.com工业机器人教育

三月一日，IT之家报道，阿里巴巴科研团队推出了一款名为“EMO（Emote Portrait Alive）”的AI框架。这款框架堪称新一代“对口型”技术，只需输入人物照片及音频，就能让照片中的人物像真人一样开口说话，并且支持中英韩等多语言。

据悉，EMO框架是建立在英伟达的Audio2Video扩散模型基础上构建的。科研团队运用了超过250小时的高质量视频数据对其进行训练，使其具备了强大的能力。

从公开演示片段来看，EMO框架生成的效果极为生动真实。研究团队详细阐述了其工作原理：首先通过ReferenceNet从参考图像和动作帧中提取特征，然后通过预训练的音频编码器处理声音并将其嵌入。在结合多帧噪声和面部区域掩码生成视频的过程中，EMO框架还融合了双重注意机制和时间模块，确保视频中角色身份的一致性和动作的自然流畅。

研究团队引以为傲地表示，经过一系列严格测试，EMO不仅可生成令人信服的说话视频，还能根据不同风格生成歌唱视频。相较于目前市场上的DreamTalk、Wav2Lip、SadTalker等产品，EMO在多项指标上表现出显著优势。这项技术的推出无疑将为数字娱乐、虚拟主播等领域带来革命性的变革。

感兴趣的朋友们可以通过访问研究团队在ArXiv上发布的工作原理，或者前往GitHub查看项目，以深入了解这一令人惊叹的技术进展。▲图源研究人员发布的DEMO片段也为大家提供了直观的体验机会。

上一篇：机器人走入幼儿园精彩表演趣味多下一篇：没有了

可让照片人物开口说话阿里巴巴研究团队推出 AI 框架EMO

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

可让照片人物开口说话 阿里巴巴研究团队推出 AI 框架EMO

机器人工业设计

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

可让照片人物开口说话阿里巴巴研究团队推出 AI 框架EMO