日本研究者提出新算法:让机器人通过多模态深度强化学习获得社会智能
我们始终期盼着机器人在生活中发挥重大作用,尤其是在全球机器人技术竞争激烈的背景下,日本大阪大学和JST ERATO ISHIGURO共生人机交互项目的研究者最近提交的一篇论文为我们带来了振奋人心的消息。日本作为机器人领域的强国之一,此次的研究成果无疑为该领域注入了新的活力。更令人瞩目的是,他们的实验是在著名的Pepper机器人上进行的。
要使机器人在社会环境中与人类共存,掌握类似于人类的社交技能是至关重要的。通过编程让机器人掌握这些技能是一项艰巨的任务。在这篇论文中,研究者们提出了一种多模态深度Q网络(MDQN)的方法,这是一种创新的技术,允许机器人通过试错的方式学习人类交互技能。该论文的主要目标是开发一种机器人,这种机器人能够在与人类交互的过程中收集数据,并利用端到端的强化学习从高维度传感信息中学习人类的行为模式。经过与人类的连续14天的交互实验,机器人在学习基本的交互技能方面取得了显著的成功。这对于未来机器人在社会智能领域的发展具有里程碑意义。这一研究成果展示了机器人在社交技能方面的巨大潜力,也为我们带来了对于未来人机共存的无限期待。图 1:机器人学习社交技能的场景
算法概述
我们所介绍的算法,仿佛流淌着两条独立的溪流:一条处理灰度帧,另一条处理深度帧。这两股信息流并行运作,共同构成了这一独特算法的核心。其流程被简洁地概述在下面的Algorithm 1中。
由于该算法拥有两个独立处理流,因此其参数由两个网络共同构成,表示为θ 和 θ-。与常见的DQN模型[10]不同,我们的算法将数据的生成阶段和训练阶段明确区分开来。
每一天的实验仿佛是一个连贯的故事片段,我们称之为一个episode。在这每一个episode中,算法会交替进行数据的生成和训练。这样的设计使得算法更加灵活高效,能够根据实际需求在不同的阶段之间切换。在生成阶段,算法主要负责收集和处理数据;而在训练阶段,则聚焦于如何利用已有的数据优化模型性能。通过这种设计,我们的算法能够在不断学习和适应环境中表现出更优秀的性能。以下是关于本研究所提出的算法的伪代码的生动描述:
步入数据生成阶段,我们的智能系统以 Q 网络 Q(s, a; θ) 之姿,与周遭环境开启一场互动。系统通过灰度帧和深度帧观察当前场景,并采用 ε-greedy 策略作出决策。环境中的反馈则回馈给系统一个标量的奖励,奖励的具体定义详见 5(2) 节。这些互动经验被珍藏在重放记忆 M 中,如同记忆的宝库,保存了 N 个最新的历练。这些经历将在训练阶段被提取,用于更新网络的参数。
紧接着,训练阶段隆重登场。系统利用重放记忆 M 中的数据,展开网络的修炼之旅。超参数 n 代表着经历重放的次数。每一次的重放,都像是从记忆宝库 M 中随机抽取一个包含 2000 次互动经验的迷你缓存器 B。网络模型将在 B 中采样的 mini batch 上进行深度学习,其参数会在 bellman targets 的指引下进行迭代式的更新。对重放记忆的随机采样,打破了样本间的关联性,因为在标准的强化学习中,我们假设样本是独立且完全分布的。
实现细节
这个模型巧妙地构建了双流式架构,专门处理灰度信息与深度信息。这两股信息流经的通道,结构竟是一模一样,每个通道都是由8个层次(包括输入层)紧密交织而成。整体模型蓝图如诗如画,可参照图2——“双流卷积神经网络”。
图 2:展现着双流卷积神经网络的全貌。在这个网络中,多模态Q网络的y信道和depth信道分别接收灰度图像(尺寸为198 × 198 × 8)和深度图像(同样尺寸为198 × 198 × 8)。由于每个通道都使用最近的8帧作为输入,这些经过预处理的帧堆叠在一起,构成了网络的输入。既然两个通道的结构完全相同,我们只需深入探讨其中一个即可。
一张198 × 198 × 8的输入图像首先传递到第一个卷积层(C1)。在这里,3步幅的卷积操作将作用于9×9的16个滤波器上,随后是一个整流线性单元(ReLU)函数,生成16个特征图,每个图的大小为64×64(我们将其标记为16@64×64)。这些从C1诞生的输出数据接着会被送往名为S1的下采样层,在此,一个步幅为2×2的最大池化(max-pooling)操作将被执行。接下来的第二(C2)和第三(C3)卷积层会分别计算并应用32和64个滤波器,每个滤波器的大小为5×5,步幅为1。经过非线性ReLU函数的加工后,C2和C3的输出将分别流向S2和S3下采样层。最后的隐藏层是一个拥有256个整流单元的全连接层。而输出层则是一个线性层,拥有四个单元,每一个单元对应一个可能的动作选择。
图 3:握手之道,成败之间——成功与失败的握手示例对比
经过一系列的互动环节,图 3 展示了成功与不成功握手的鲜明对比。通过对比两种截然不同的握手方式,我们可以深刻感受到细节决定成败的真理。无论是商务场合还是社交环境,掌握正确的握手技巧对于展现个人形象与建立良好关系至关重要。
图 4:MDQN历经波折后的辉煌——在测试数据集上的卓越表现
经过一系列的“episodes”(历程、经历)之后,MDQN 在测试数据集上展现了惊人的表现。这一成果凝聚了无数研究者的智慧与努力,证明了MDQN在复杂环境中的适应能力和出色性能。在激烈的竞争中,MDQN以其卓越的表现赢得了广泛的赞誉和认可。
工业机器人
- 日本研究者提出新算法:让机器人通过多模态深
- 粤产机器人创新展2025科技新品展,革新成果展现
- 阿尔法狗大升级新机器人有了记忆
- 2019年规模达12亿,2023年将突破50亿,电力巡检机
- 成都汽车制造技术装备展受展商热捧
- 活动预告-FUN肆一夏,7月南京最全的智慧农业活动
- 机器人“四大家族”抢占中国市场 中企花血本追
- 马斯克:就算外星人绑了我,特斯拉也要搞定自
- 人工智能读书破万卷,难答小儿科
- 硬见生态,共享智慧,2017硬见开发者论坛在深圳
- ChatGPT用户量突破百万背后,著作权内容漏洞等风
- 英特尔与科沃斯商用携手创新 加速商用机器人应
- 探索人工智能:2025年的趋势、机遇与挑战
- 5G新基建国产工业机器人进入爆发期了吗?
- 未来,让机器人为你做康复可好?
- QYSEA鳍源科技轻工业级ROV 40秒极速展开作业纵横江