Facebook&哥大等推出实验性AI框架,音视频信息可
新智元报道
来源外媒
编辑keyu
【新智元导读】近日,来自Facebook、哥伦比亚大学等高校的研究人员开发了一种可以从视频、对话历史、音频以及语音文本中生成高层次语义信息的框架Vx2Text,该模型可以用来概括信息内容,并准确地回答相关问题。
对于人工智能来说,开发一个能可靠地理解世界、并使用自然语言作出反应的对话系统是一个很大的挑战。
如果要达到这一目标,那么我们需要一个能够从图像、文本、音频和视频中提取突出信息,并以人类能够理解的方式回答问题的模型。
最近,Facebook、哥伦比亚大学、佐治亚理工学院和达特茅斯大学的研究人员开发了Vx2Text一个从视频、语音或者音频中生成文本的框架。他们声称,相比之前的最先进的方法,Vx2Text可以更好地创建说明文字并回答问题。
论文地址
https://arxiv./pdf/2101.12059.pdf
与大多数人工智能系统不同,人类可以很自然地轻易理解文本、视频、音频和图像在上下文语境中的含义
例如,一些给定的文本和图像,在分开讨论的时候似乎无害,比如“看看有多少人爱你”和一张贫瘠沙漠的图片,,人们会立即意识到,这些元素在结合在一起的时候,其实是具有潜在伤害性的。
多模态学习可以包含一些潜在互补的信息或者趋势,不过,只有在学习中完全包含相关信息的时候,这些含义才能显现。
对于Vx2Text,,“模态独立“的分类器将来自视频、文本或音频的语义信号,转换为公共语义语言空间,这使得语言模型能够直接解释多模态数据,从而为通过谷歌的T5等强大的语言模型进行多模态融合即结合信号来支持分类提供了可能。
图模型框架
Vx2Text中的生成式文本解码器,将编码器计算的多模态特征转换为文本,使该框架适合于生成自然语言语义概括,如下图
研究人员在论文中写道“与之前的方法相比,这种设计不仅简单得多,而且具有更好的性能。”
“更有用的是,它并不需要设计专门的算法,或者借鉴其他替代方法来实现多模态信息的组合”
在实验中,研究人员展示了Vx2Text为带有视频和音频的视频场景所生成的「真实的」自然文本。
尽管研究人员研究人员以对话历史和语音记录的形式,为模型提供了上下文,他们注意到,生成的文本包括了非文本形式的信息,例如帮助某人帮助某人站起来或者接电话等行为。
,由于Vx2Text可以高度整合、概括和真正理解多模态输入中蕴含的信息,,基于生成的语义信息,它也可以回答各种各样的问题
Vx2Text可以用于工业界,比如,它可以用于为流媒体视频添加标题来增加访问性。
,这个框架也可能会用于YouTube和Vimeo等视频分享平台这些平台依赖字幕和其他信息来提高搜索结果的相关性。
研究人员表示“我们的方法从将所有形式的信息映射到语义语言空间的想法出发,来实现直接应用强大语言模型Transformer网络的目标,这使得我们的整个模型都可以进行端到端的训练。“
参考链接
https://venturebeat./2021/02/02/researchers-vx2text-ai-frameork-dras-inferences-from-videos-audio-and-text-to-generate-captions/
机器人技术
- 800多家中国机器人企业近半无产品
- 看看机器人在和你抢什么
- 马化腾、李彦宏等科技企业大佬们在贵阳大数据
- 机器人投入汽车产业园 探索机器人产业链
- 特斯拉 Cybertruck 电动皮卡换上黑色外衣,有望为
- 沁峰如何成为冲压机器人细分赛道国家专精特新
- 运动机器人智障了吗?
- Rivian 将投资 50 亿美元在佐治亚州建造电动汽车工
- 调查发布 - 制造业在疫情防控常态化下突围——
- 未来工业机器人的市场什么样的变化
- 进博会特斯拉展台最全预测 沉浸式体验智能制造
- 美国将中国电动汽车关税提高到 100%,极星 CEO 对
- DeepMind 联合创始人:交互式 AI 才会“改变人类”
- 把握发展趋势 推动机器人产业高质量发展
- AI入侵教师职业,这五类产品发展迅猛
- 他们用AI和食用植物创造“人工肉食”,你想尝尝