教人工智能以我的视角看世界

机器人技术 2025-02-08 10:16www.robotxin.com机器人技术

以“我”的视角，人工智能探知世界的新纪元

为了让人工智能系统更深入地与人类交互，我们需要为其引入全新的第一人称感知范式。这意味着人工智能需要在实时运动和交互时，从第一人称的视角去理解日常活动。

世界是丰富多彩的，同样的景物在不同的视角下会呈现出截然不同的面貌。为了让人工智能更贴近人类，我们需要让其从人类的视角观察环境，从而发现一个全新的天地。

近日，由Facebook和全球9个国家的13所大学及实验室组成的学术联盟宣布，将在不久的将来开源一个名为Ego4D的项目。这个项目包含了超过3025小时的第一人称视频，记录了来自73个城市的700多名参与者的日常生活。这些视频将极大地帮助人工智能以更人类的方式认知世界。

那么，目前人工智能主要通过哪种视角来认知世界呢？又是哪些技术让人工智能感知环境、认识世界呢？我们又该如何突破瓶颈，让认知世界的人工智能更像人类呢？

人工智能通常采用第三人称视角

现今的计算机视觉系统大多基于数百万张以第三人称视角拍摄的照片和视频进行训练。但为了让人工智能拥有更真实的感知能力，我们需要教会它像人类一样，从第一人称视角沉浸式观察、理解并交互。正如脸谱的首席研究科学家克里斯汀·格劳曼所言：“我们需要构建一种新的感知范式，让人工智能从‘我’的视角去体验世界。”

如何理解人工智能的第一人称和第三人称视角呢？谭茗洲解释道：“第一人称视角具有强烈的代入感，仿佛你身临其境。而第三人称视角则如同上帝视角，可以观察到角色及其周围环境。在自动驾驶领域，如果仅从旁观者视角收集数据，训练出来的人工智能可能无法模拟真实驾驶情况。”

建立真实世界数据集：Ego4D项目的重要性

为了让人工智能更深入地理解人类的世界，我们需要建立真实世界的数据集。这就是Ego4D项目的核心目标。通过建立这样一个数据集，我们旨在训练人工智能模型，使其更接近于人类的认知方式。这个项目包含了5个围绕第一人称视觉体验的基准挑战，这些基准挑战将推动人工智能在理解人类行为、预测人类动作、感知手—物交互、理解视听信息以及社交互动等方面的能力。谭茗洲强调：“这些基准测试将促进开发人工智能助手所必需的构建模块的研究。”这意味着未来的AI助手不仅可以理解现实世界中的指令并与之交互，还可以在元宇宙中实现理解和交互。为了实现这一目标，Facebook合作的大学团队向参与者分发了头戴式摄像头和其他可穿戴传感器来捕捉真实的第一人称生活视频。通过这些数据，我们可以建立一个更接近人类感知模式的人工智能系统，开启人机沉浸式体验的新时代。探索自我中心认知：Ego4D重塑人工智能视界

随着人工智能技术的不断进步，我们正迈入一个充满创新与变革的时代。想象一下，戴上AR设备，你可以瞬间沉浸在琴棋书画的世界中，学习如何弹奏乐器、下棋、握笔作画；或是家中的主妇通过AR指导，轻松烘焙、烹饪美味佳肴；老年人借助全息投影，重温美好回忆……这一切都预示着人工智能将为我们的生活带来前所未有的变革。

在这一变革中，Facebook的Ego4D项目正引领着新的研究浪潮。它不仅公开了摄像头佩戴者数百项活动中的数据，更致力于推动人工智能领域的自我中心认知研究。

“我们所处的时代，人工智能正在逐渐拥有更深刻的自我中心认知能力。”谭茗洲表示，“而Ego4D项目正是在为学术界和行业专家铺设一条全新的道路，帮助我们构建更加智能、灵活、交互性强的计算机视觉系统。”

那么，如何让人工智能的认知能力更像人类呢?这需要我们从多个角度进行深入探索。首先是注意力机制。人类的注意力是有选择性的，而人工智能的注意力机制需要更加接近人类的直觉。未来的研究将更多地关注如何借助特殊的眼球追踪装置，捕捉参与者的眼球关注点，以进一步提升人工智能的注意力机制。

除此之外，我们还需要以事件和行为的关联为核心，定义人工智能的行为。这意味着我们需要通过人类的反馈方式，训练人工智能系统，使其行为与我们的意图保持一致。听觉、视觉、语言和行为之间的配合、响应和联动也是关键所在。这需要我们构建多模态交互模型，深入研究视角为何会聚焦并与意图识别相结合，形成与行为之间的联动机制。

在Ego4D项目的推动下，我们有理由相信，人工智能将在未来更加深入地融入我们的日常生活，为我们带来更加便捷、智能的体验。无论是学习、工作还是娱乐，都将因人工智能的加入而变得更加丰富多彩。

上一篇：2018年度中国科学十大进展正式发布 DNA纳米机器人上榜下一篇：人工智能2.0时代宁波如何弄潮

教人工智能以我的视角看世界

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术