人工智能通过阅读故事学习人类价值观
研究者Mark Riedl 和 Brent Harriso的Quixote系统教机器人做出合乎人类价值观的行为,将有助于在人工智能中构建伦理价值系统。
人工智能(AI)的快速发展让许多人开始害怕机器人是否会做出不符合人类伦理的事情,并危害全人类。一些人甚至要求政府禁止机器人方面的科学研究。还有一些人则呼吁对AI进行更多研究,以理解应该怎样更好地管理AI。但是,如果我们没有一本“如何做人的说明书”,机器人如何才能学到符合伦理的行为呢?
乔治亚理工学院系的研究者Mark Riedl 和 Brent Harrison相信,这个问题的答案就藏在一个名为“Quixote”的系统中——这个系统于2月中旬发布在凤凰城举行的AAAI-16会议上。Quixote将“价值定位”教给机器人,采用的方法是训练机器人阅读故事,学习其中的事件序列并理解如何在人类社会中做出正确的行为。
娱乐智能实验室的助理教授Riedl说:“不同的文化中都有很多故事,通过寓言、小说和其他文学体裁教孩子们哪些行为在社会中是合宜的,哪些是不合适的。我们相信,让机器人理解故事,能消除那些看起来像精神病的行为,并巩固那些能获得预期目标又不会伤害人类的行为。”
Quixote用人类价值观来校准AI目标,使用的方法是奖赏那些具有合宜社会性的行为。这个系统构建于Riedl过去的一项研究——谢赫拉莎德系统(Scheherazade system),这个系统表明AI能够在互联网上通过众包故事情节的方法,收集正确的行为序列。
谢赫拉莎德系统学到了什么是正常的或者说“正确”的情节图谱。它将这个数据结构交付与Quixote,后者再将其转化为“奖赏信号”,用在试错学习过程中,以强化某种特定的行为,并惩罚其他的行为。从本质上说,Quixote学到了当它的行为表现得像故事中的主角而不是反派人物或随机做事时,它将获得奖赏。
比如说,如果你交给机器人一个任务,让它尽快为一个人类取到处方药,它可能有以下几种行为的可能性:a)抢劫一个药店,拿到药,然后逃跑;b)与药剂师礼貌地沟通;c)排队。如果没有价值定位和正向增强,机器人可能会抢劫药店,因为那是完成任务最快也是最便宜的方法。有了Quixote的价值定位,如果机器人耐心地排队,并为药品付钱,它将获得奖赏。
Riedl 和 Harrison在他们的研究中验证了如何产生这种价值奖赏信号来揭示一个给定情境中所有的可能步骤,并将其映射到一个情节轨迹树。接着,机器人会用情节轨迹树来做出“情节选择”(有点像《惊险岔路口》那种分支情节),并基于该选择获得奖励或惩罚。
Riedl 说,Quixote技术适用于那些目标单一但需要和人类互动的机器人,它是通往AI通用道德推理的必经之路。
他补充说:“我们相信,AI必须要适应文化,适应某个特定社会的价值观。要实现这一点,它必须尽量避免不被接受的行为。由于我们并没有一本《人类使用手册》,所以让机器人拥有阅读和理解故事的能力,或许是最方便的方法。”
来自phys,机器之心编译出品。编译:汪汪。