机器人怎么更懂人类?谷歌:看这五万多个视频

服务机器人 2025-03-22 12:15www.robotxin.com女性服务机器人

在这个世界中,机器正用一种全新的方式关注着我们的一举一动。谷歌在YouTube上发布了一系列富有洞察力的视频,旨在帮助机器更深入地理解人类如何在地球上生存。它们如同打开了一扇通往人类世界的窗口,为我们展现了丰富多彩的日常生活场景。

这些视频集合,被称为“原子视觉动作”(AVA),是一段仅持续三秒钟的片段,捕捉了人们从事的各种日常活动,如饮水、拍照、演奏乐器、拥抱、站立以及烹饪等。在这短暂的时间里,人工智能被引导去关注特定的人,以及他们的动作和姿态,还有他们是否与其他物体或人产生互动。

谷歌在的一篇博客文章中详细描述了这一创新数据集。文中提到,尽管过去几年在图像分类和物体寻找方面取得了重大突破,但理解和识别人类行为仍然是一个巨大的挑战。因为从本质上讲,动作比视频中的物体更为复杂多样。

这些视频片段总计达到了惊人的57600个,强调的动作仅有80种,但需要给超过96000的人进行标签标注。谷歌巧妙地从流行电影中截取部分片段,确保它们来自不同的流派和国家,以丰富数据集的内容。如果一段视频中有两个人,每个人都会被单独标记,这样机器就能更准确地理解人类社交互动中的微妙差别,比如两个人需要握手,或者人们在拥抱时的亲吻等复杂行为。

这项技术的广泛应用将帮助谷歌分析多年的视频数据,不仅能让我们更好地理解人类行为,还能为广告客户提供更精准的目标消费者。而根据一篇伴随的研究论文,谷歌的最终目标是要教会计算机社交视觉智能。也就是说,让计算机能够理解人类在做什么,下一步该做什么,以及他们想要达到什么目标。这不仅是技术的飞跃,更是对人类与机器互动未来的一次大胆设想。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by