机器学习的新方法 让机器人学会主动提问
近年来,研究人员一直在探索如何赋予机器人新的学习技能。一种新兴的方法是通过让机器人从人类那里学习,特别是在面对不确定情境时,从人类用户的反馈中学习操作策略。
斯坦福大学的研究团队最近开发了一种更用户友好的主动奖励学习方法。该方法通过让人类用户回答机器人提出的问题来训练机器人。这种新方法,已在arXiv上预先发表的一篇论文中提出,使得机器人能够主动提出人类可以轻松回答的问题。这些问题的提出是为了帮助机器人学习,而不是出于多余或无关紧要的目的。
研究人员通过电子邮件告诉记者:“我们的团队对机器人如何学习人类意图的东西充满兴趣。”他们进一步解释,“例如,在驾驶环境中,人类用户可能会问:‘你想谨慎驾驶还是主动驾驶?’或者‘自动驾驶汽车应该在人类驾驶的汽车之前还是之后合并?’这种方法的核心理念是,理想的机器人应该能够提出有建设性的问题,以从人类用户那里获取尽可能多的信息。”换句话说,机器人需要通过提出尽可能少的问题来理解人类的需求或意图。
现有的基于问题回答的培训方法往往没有考虑到人类用户回答机器人问题的难易程度。这常常导致用户花费大量时间回答大量不必要的问题或无法明确回应的问题。为了克服这一局限性,研究人员开发了一种新的算法,该算法使机器人能够提出更加高效的问题。这种算法旨在最大限度地减少机器人对人类用户偏好的不确定性,同时考虑到人类用户回答这些问题的难易程度。研究人员强调:“我们的方法专注于考虑机器人实际提出问题时人类用户的能力。”
为了计算信息增益,研究人员通过测量熵的减少来评估机器人对人类用户偏好的不确定性。信息增益最大化的问题将最大程度地减少机器人的不确定性。使用信息增益来生成问题,从而提高机器人的主动学习能力。这不仅因为问题是信息最大的来源,而且因为人类可以更快更准确地回应这些问题。
研究人员使用贪婪策略,在每一步选择能最大化信息增益的问题。机器人根据与用户的交互来更新其信念(即概率分布),并从这一信念和可能的问题空间中获取样本。最终,机器人选择的问题是那些在当前可能的人类偏好分布中能提供最大信息增益的问题。随后,机器人会根据用户的回答不断更新其判断。这个过程不断重复进行,使机器人能够通过理解用户的偏好逐渐提高其性能。这种策略的关键在于使机器人的不确定性最大化(从而从问题中学习更多),同时使人类的不确定性最小化(从而更容易回答这些问题)。图片来源:Bıyık等研究人员指出:“我们的方法可以快速发现人类对真实机器人任务的偏好。”他们还补充说,“与其他最先进的技术相比,用户更喜欢我们的方法。”他们的研究表明训练机器人提问最大化信息增益的方法与其他先进方法的计算复杂性相同。这意味着机器人发现这些问题并不困难。最终阶段中,机器人根据收到的答案更新信念并逐步提高性能。研究团队还进一步指出他们的方法具有某些理想的数学特性,如亚模量特性等,这些特性使得他们的方法能够与其他方法结合使用并产生更好的效果。例如,他们可以使用先前的技术一次查找多个信息性问题而不是逐一查找。经过一系列模拟评估和用户研究后研究人员发现他们的主动奖励学习方法不仅使机器人能够更快更准确地掌握人类的喜好而且与人类用户的交互更加顺畅他们收集的用户反馈表明人们普遍认为用新方法提出的问题更加容易回答总的来说这一研究在机器人学习领域迈出了重要的一步它不仅增强了机器人的学习能力还提高了与人类用户的交互体验让我们期待未来更加智能的机器人的到来!研究人员欣喜地表示:“我们所做的研究不仅为机器人准确捕捉人类偏好铺平了道路,而且我们证明了机器人完全可以朝着我们为其设定的初衷发展——积极提出问题以获取更多信息,这可以在保持现有计算复杂性的前提下实现。”
未来,由该团队开发的主动奖励学习技术将助力于更有效地训练机器人,使其更贴近用户的喜好。该技术还能指导机器人提出人类易于理解并作出回应的问题。在未来的探索中,研究人员还渴望研究如何训练机器人对其行为做出实用且贴切的解释。
想象一下这样一个场景:一位自主驾驶的机器人将两种人类不同的交通规划方案可视化,并且向我们解释为何会提出这些问题。它之所以这样做,是因为它正处于交通繁忙的时刻,想要通过询问来确定最合适的行动方案。研究人员对此充满期待并表示:“我们对机器人的发展感到振奋,它们不仅能够提出深思熟虑的问题,还能够解释提问背后的逻辑。”