微软称其人工智能可以像人一样描述图像
虽然这本身就是一个值得注意的里程碑,但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分,这样任何开发者都可以把它带到他们的应用程序中。今天,它也可以在Seeing AI中使用,这是微软为盲人和视障用户开发的应用程序,可以帮助他们了解周围的世界。今年晚些时候,字幕模式还将改进您在PoerPoint中用于Web、Windos和Mac的演示文稿,它还会在桌面平台上的Word和Outlook中弹出。
Azure AI首席副总裁埃里克博伊德说“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”优化字幕技术可以帮助每一个用户它让你更容易在中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得非常好。
看到公司吹嘘他们的人工智能研究创新并不少见,但这些发现迅速部署到运输产品中的情况要罕见得多。Azure AI认知服务CTO黄学冬,考虑到对用户的潜在好处,力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型,这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常,这些类型的模型使用图像和完整的字幕进行训练,这使得模型更难了解特定对象是如何交互的。
黄学冬在一篇博客文章中说“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆。”这就是为什么这个新模型在nocaps基准中占据了一席之地,该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。
,虽然打破基准意义重大,但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法,看到人工智能开发人员Saqib Shaik,他自己也是一个盲人,也在微软推动更好的可访问性,他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑,看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。
家用机器人
- 家用清洁机器人行业首度出台安装和服务规范
- 工业机器人六轴指标有哪些黄山供应商如何选择
- 工业机器人焊接技术论文如何选题有哪些研究方
- 盐城哪些企业急需工业机器人调试人才
- 1050立轴冲击碎石机产能如何如何更加高产zg
- 十二五我国机床业结构转型关键方向解析
- 智能制造专业后悔了
- 机器换人大势渐成
- 俄罗斯航空发动机公司正在生产中引入更多的机
- 基于FPGA EtherCAT的六自由度机器人视觉伺服控制设
- 机器人怎么修改盈亏数据
- 视觉导航移动机器人企业 灵动科技完成近2亿元
- 河北省软件和信息技术服务业收入首次突破700亿
- 智慧无人机自动打卡上班
- 众筹排行榜 会抛媚的机器人 让猫主子乖乖听话
- 国内工业机器人伺服电机品牌哪家强