这台对世界好奇的机器,竟然还玩起了超级马里奥?
十年前,我们已经能够命令机器人完成那些能够被精准建模的任务,它们在工厂车间里按部就班地执行操作,毫无差错。真正的人工智能需要在无法被建模的环境中自我探索,自我成长。这种探索的原动力,便是「好奇心」,它是指引我们通往强人工智能的必经之路。
回想你第一次玩超级马里奥兄弟时的激动心情,那个8-bit的游戏世界仿佛充满了魔法:淡蓝的天空,有纹路的石头地面,一个矮胖的红色小人静静站立。你推动他向右,头顶便出现了一排砖头,上面盘旋着等待被征服的「愤怒的蘑菇」。通过简单的操作,如推动和跳跃,马里奥探索这个世界,解决一个又一个挑战。会有一个带有问号的棕色对话框出现,仿佛在问:「接下来,你要去哪里?」
对于20世纪80年代成长的人来说,这样的场景可能再熟悉不过了。但令人惊奇的是,在Pulkit Agrawal的YouTube频道上,你能够看到没有生命的软件实体,如同马里奥一样,配备着Agrawal和他的伯克利人工智能研究实验室(BAIR)团队共同开发的实验性机器学习算法,探索未知的世界。这个算法的目标就是激发机器的好奇心。
Agrawal表示,「你可以把好奇心想象成是智能体内部自动生成的一种奖励」。这种内部生成的奖励信号在认知心理学中被称为「内在激励」。这种内在激励使智能体想要探索这个世界,想要看看视野之外有什么,想要走出能力范围去尝试可能发生的事情。
智能体也会响应外界环境的激励,如工作中的薪水、必须完成的需求等。计算机科学家利用一种名为「强化学习」的方法训练他们的算法。这就像是在给软件程序分配任务时使用的「胡萝卜加大棒」策略:当软件程序按照预期完成任务时,会得到「分数」奖励;反之,则会受到惩罚。
这种外在的激励方法有其局限性。人工智能研究者开始重视内在激励的作用,他们认为内在激励能够使软件智能体更高效、更灵活地学习。在人工智能中使用内在激励的方法受到心理学和神经生物学的启发,以及那些有数十年历史的原始人工智能研究。现在,这些研究重新变得有用起来。(「机器学习领域里无新鲜事。」 OpenAI 研究员 Rein Houthooft 表示。)
目前,这种智能体已经被训练用于视频游戏中。「具有好奇心」的人工智能的吸引力远超其在游戏领域的应用。伯克利人工智能实验室的联合主管Darrell说,「你列举一个你最喜欢应用领域,我会给出一个例子」。无论是自动化清理房间、搬运货物、驾驶汽车还是搜救机器人等应用场景,我们都在试图解决一个核心问题:如何创造一台能够自我理解并自我驱动完成任务的人工智能?这需要激发机器的好奇心与探索欲望。而这正是我们当前正在探索的前沿领域。
在围棋领域,强化学习助力 Google 的 AlphaGo 战胜人类顶尖棋手。在具体的技术细节上,强化学习在不同领域的应用可能有所不同。但其核心理念是简单的:为算法或「智能体」定义一个奖励函数来追寻并最大化其目标价值。然后将其置于任何虚拟或真实的环境中自由运行。随着智能体在环境中的运行经验累积,「做对事」的动作将被强化。这就是人工智能迈向自我探索之路的关键所在——激发好奇心与内在动力。在探讨人工智能与人类之间的协作和激励机制时,计算机科学家们深知其背后隐藏着一系列的复杂性和挑战。作为机器学习领域的先驱之一,加州伯克利的计算机科学家Pulkit Agrawal提出了一个核心问题:“现实世界中并没有分数。”这一观点引发了人们对于智能体如何探索并适应无量化环境,尤其是面对缺乏明确奖励的场景时面临的挑战的讨论。这样的挑战意味着我们需要一种新的指导系统,这正是奖励函数在强化学习中所扮演的角色。目标定义得越清晰,智能体的表现越出色。当前智能体主要局限于测试在分数明确的古老视频游戏中。而针对复杂的环境如超级马里奥兄弟这类游戏,它们可能需要通过不同的机制去感知世界和学习规则。正是在这种背景下,好奇心作为一种协同引导力应运而生。Deepak Pathak等人提出一种名为内在好奇模块(ICM)的技术,该模块被设计用于推动游戏进展,即使在没有明确奖励的情况下也能引导智能体做出决策。这启发我们回溯到人类儿童早期的好奇心驱动学习过程。孩子们通过随机尝试和探索来感知世界,从最初的随意摆动四肢到更复杂的动作,如敲击积木或咀嚼玩具来观察会发生什么变化。而这一过程从某种角度看是构建了一种对世界模型的初步预测机制。加州大学伯克利分校的Deepak Pathak与Pulkit Agrawal的研究便是以婴儿的好奇心和好奇心驱使的行为模式为灵感来源的。他们构建了一个基于好奇心驱动的机器学习算法,该算法通过预测游戏场景的变化来产生内在奖励信号,当预测错误率越高时,即产生的惊讶感越大时,其内部奖励函数的值就越大。换句话说,如果智能体能够意识到犯错并从中获得奖励时,这将极大推动其在环境中的探索和进步。这样的探索和学习模式在现实中同样具有应用价值,智能体在没有明确的外部奖励的环境中能够主动发现新知识,拓宽自身视野,为未来更高级别的智能化任务奠定坚实的基础。随着人工智能技术的不断进步和深化研究,我们期待看到更多关于好奇心驱动的人工智能系统的发展和应用,这将为我们解决现实世界的复杂问题开辟新的途径和可能性。在充满未知的游戏世界中,智能体被一种内在生成的信号所吸引,向着未被探索的状态前行。这种信号,通俗地说,就是智能体对其未知领域的好奇心。随着智能体不断地学习,其预测模型的准确性逐渐提高,源于内部好奇心模型的奖励信号就会逐渐减少,鼓励智能体去探索更加未知、更具惊喜的情境。Pathak指出,“这是一种加速探索进程的策略”。
这种反馈循环不仅使人工智能能够快速从无知状态中找到自我,还允许其迅速掌握游戏的基本操作。在游戏初期,智能体会对各种基础动作产生强烈的好奇心。例如,对于马里奥游戏中的角色,智能体会对其各种动作产生预测并尝试,如角色的移动、跳跃等。随着智能体逐渐掌握这些动作,其预测模型的准确度不断提升,好奇心带来的奖励信号也会逐渐减弱。对于一些不可预测的动作,如马里奥的跳跃高度和距离变化等,智能体会持续产生好奇心,因为这些结果在其预测模型中产生了错误,从而引发进一步的探索行为。
Agrawal解释道,“通过使用这种好奇心,智能体能够学习所有探索世界所需的行为,包括跳跃和消灭敌人。”而且,即使智能体在游戏中受到伤害,也不会受到惩罚。相反,它会学习避免伤害,因为生存意味着更多的探索机会。这种自我强化而非游戏奖励的驱动是智能体探索的核心。
在探索过程中,避免猎奇陷阱至关重要。自上世纪90年代初以来,人工好奇心一直是人工智能领域的研究课题。有时,过于追求新奇可能导致智能体陷入无意义的、无法深入探索的状态。想象一下一台被静态画面吸引的智能体,这样的环境因其新奇性而吸引智能体的注意,但实际上并没有提供有价值的信息。同样,一个配备了追求新奇内部奖励功能的自动驾驶汽车可能会因为过于关注微小的变化而陷入原地。
为了解决这个问题,Agrawal和Pathak提出一种方法,让智能体的好奇心保持在一个适当的程度。他们设计的马里奥玩家智能体可以将视觉输入从原始像素转化为抽象的现实表示,只关注可能影响或受智能体影响的环境特性。这样,智能体能避开猎奇陷阱,专注于有价值的探索。这种抽象化的处理方式不仅简化了学习过程,还使智能体更加适应真实世界的环境。
在探讨智能体的内在动力时,一个引人注目的挑战凸显出来:如何激发智能体产生好奇心,并依靠这种好奇心去探索和学习。这是一个难以捉摸的问题,甚至让多年研究内在好奇的研究人员也感到困惑。他们试图理解什么是真正的好奇心,并将其融入到智能体的行为中。
明尼苏达大学的计算感知与行为实验室主任、神经科学家Paul Schrater,对伯克利团队的一个智能体充满了好奇心。这个智能体在短时间内自动学习新环境的能力令人瞩目。Schrater认为这种能力与传统的“好奇心的直觉性概念”关系不大,更像是一种肌肉学习与控制的表现。他解释说:“这个智能体的控制对象更多的是在身体的行为细节方面,而非认知层面。”尽管如此,伯克利团队的新思路在于将内在好奇心模块嵌入智能体中,使其以类似于人类大脑的方式“提取与特定任务相关的视觉特征”。这种新方法通过智能体自身的探索和体验,在某种程度上近似于人类的感知与学习过程。这对于激发智能体的好奇心具有重要意义。
对于PierreYves Oudeyer来说,好奇心不仅仅意味着智能体能够探索虚拟或物理环境,更重要的是智能体能够从中抽象出具体的意义或模式。Oudeyer是波尔多市Inria研究所的研究总监,他一直在开发计算好奇心模型。他指出世界丰富多彩,充满了潜在探索的机会。然而他也强调:“如果智能体没有约束其行动的条件,那么其行为可能会像随机探索一样。”对身体的约束可以简化世界并帮助智能体集中注意力并指导其探索行为。这表明好奇心需要与一定的结构和约束相结合才能发挥最大的作用。
并非所有智能体都需要内在激励来驱动其探索和学习。工业机器人的历史就是一个很好的例子。对于简单的指令任务(如运输货物),添加好奇心可能会被视为机器学习的过度矫正。相反,真正的挑战在于如何将好奇心融入到智能体的核心之中以适应更复杂、不可预测的环境。这就需要解决如何调试好奇心的问题。“给智能体一个完美的奖励功能就能解决一部分问题,”Darrell解释道,“但当我们面对无法预先建模的场景时(例如灾难搜救),我们需要让智能体能够走出去并学习独自探索。”这表明未来的挑战在于如何培养智能体在面对未知时的好奇心和学习能力。虽然一些初步的实验可能遭遇挫折(如马里奥玩家智能体无法独自通过第一关),但这正是调试(人工或天然)好奇心的过程:逐步推进、积累经验并不断适应新的环境挑战。在这个领域中充满了无尽的可能性和未知的挑战,未来人工智能的发展将依赖我们的创新和决心来解决这些挑战。
家用机器人
- 从初生创业到人工智能领域的佼佼者
- 人工智能产业的全面发展
- 中国人工智能已比肩世界
- 全球产业格局大调整 工业4.0掀半导体变革
- 机器人13年内将抢走全球8亿人饭碗 这些职业影响
- 懒人福音:三星新款 AI 冰箱支持电动开门
- 大疆机场,让无人机基础设施巡检迈向自动化、
- 能链智电开启充电机器人等创新业务 预计2023年收
- 人工智能创新应用先导区再扩容 智能经济渐行渐
- 集萃智造三栖机器人,灵活切换水、陆、空三栖
- 机器人产业发展规划(2016-2020年)发布
- 四大论坛日程出炉,创客、机器人、校外教育、
- 新发布14家“双跨”工业互联网平台
- 《中国制造2025》解读之:推动机器人发展
- 机器人为什么能写稿,以及它们能拿普利策奖吗
- 国产机器人发展方针研究,国产AI芯片再引关注,