微软称其人工智能可以像人一样描述图像
虽然这本身就是一个值得注意的里程碑,但微软并不只是将这项技术独家。它现在提供新的字幕模型作为Azure认知服务的一部分,这样任何开发者都可以把它带到他们的应用程序中。今天,它也可以在Seeing AI中使用,这是微软为盲人和视障用户开发的应用程序,可以帮助他们了解周围的世界。今年晚些时候,字幕模式还将改进您在PoerPoint中用于Web、Windos和Mac的演示文稿,它还会在桌面平台上的Word和Outlook中弹出。
Azure AI首席副总裁埃里克博伊德说“[图像字幕]是人工智能中最棘手的问题之一。它不仅代表着理解场景中的物体,还代表了它们是如何交互的,以及如何描述它们。”优化字幕技术可以帮助每一个用户它让你更容易在中找到你正在寻找的图像。对于视障用户来说,它可以让网络和软件导航变得非常好。
看到公司吹嘘他们的人工智能研究创新并不少见,但这些发现迅速部署到运输产品中的情况要罕见得多。Azure AI认知服务CTO黄学冬,考虑到对用户的潜在好处,力推将其快速整合到Azure中。他的团队用标有特定关键字的图像训练了这个模型,这帮助它提供了一种大多数人工智能框架所没有的视觉语言。通常,这些类型的模型使用图像和完整的字幕进行训练,这使得模型更难了解特定对象是如何交互的。
黄学冬在一篇博客文章中说“这种视觉词汇的预训练本质上是训练系统所需的教育;我们正在努力教育这种运动记忆。”这就是为什么这个新模型在nocaps基准中占据了一席之地,该基准专注于确定人工智能对他们以前从未见过的图像的字幕能力有多好。
,虽然打破基准意义重大,但对微软新模式的真正考验将是它在现实世界中的运作方式。根据Boyd的说法,看到人工智能开发人员Saqib Shaik,他自己也是一个盲人,也在微软推动更好的可访问性,他将其描述为比他们之前提供的产品有了戏剧性的改进。现在微软已经建立了一个新的里程碑,看看谷歌和其他研究人员的竞争模型如何竞争将是一件有趣的事情。
家用机器人
- 从初生创业到人工智能领域的佼佼者
- 人工智能产业的全面发展
- 中国人工智能已比肩世界
- 全球产业格局大调整 工业4.0掀半导体变革
- 机器人13年内将抢走全球8亿人饭碗 这些职业影响
- 懒人福音:三星新款 AI 冰箱支持电动开门
- 大疆机场,让无人机基础设施巡检迈向自动化、
- 能链智电开启充电机器人等创新业务 预计2023年收
- 人工智能创新应用先导区再扩容 智能经济渐行渐
- 集萃智造三栖机器人,灵活切换水、陆、空三栖
- 机器人产业发展规划(2016-2020年)发布
- 四大论坛日程出炉,创客、机器人、校外教育、
- 新发布14家“双跨”工业互联网平台
- 《中国制造2025》解读之:推动机器人发展
- 机器人为什么能写稿,以及它们能拿普利策奖吗
- 国产机器人发展方针研究,国产AI芯片再引关注,