一文读懂具身智能如何成就巡逻机器人3.0
当今机器人领域所面临的最重大挑战,莫过于深入理解世界,操控物体并与世界交互。与科幻电影中无所不能的机器人相比,现实世界中机器人的渗透率依然较低。大模型的出现为机器人产业的飞跃提供了坚实的技术基础,使产业从1%跃升至10%。特别是以ChatGPT为代表的生成式AI(AIGC)在全球范围内崭露头角,对机器人行业产生了深刻影响。
具身智能,一种拥有自主决策和行动能力的机器智能,正成为国际学术研究的热点。它如同人类一样,能够与环境交互、感知、规划、决策、行动和执行任务,涵盖了人工智能领域的几乎所有技术,如自然语言理解、逻辑推理、运动控制等。
在ChatGPT等大语言模型(LLM)出现之前,大模型与具身智能的结合主要局限于感知层面。而现在,LLM所展现的丰富知识和推理能力,使得复杂任务的解决变得更为轻松。通过分解并特定完成子任务,LLM在具身智能领域取得了突破性进展。
具身智能强调“感知-行动回路”的重要性,即感受世界、建模、行动并验证调整的过程,与人类的学习和认知过程相吻合。在最近的华为开发者大会上,高新兴机器人的首席技术官刘彪分享了《大模型助力巡逻机器人进入3.0时代》的主题演讲,指出了人工智能与机器人协同发展的历程。
结合第二代人工智能技术和机器人技术,高新兴机器人构建了全栈技术研发体系,并打造了云边端一体化机器人操作系统。在移动、感知、决策、交互和应用等方面,他们解决了多项关键技术。
第三代人工智能以大模型和多模态为主,在基础模型作为感知模块的工作中,视觉模型与具身智能的结合日益紧密。而在基础模型作为规划模块时,生成式语言模型如ChatGPT被用于拆解和规划复杂指令。在动作执行模块,基础模型需结合指令和环境观测等多模态数据,实现精细动作的执行。
智能机器人需要首先听懂人类语言,分解任务并规划子任务,在移动中识别物体,与环境交互,最终完成任务。这不仅是技术的革新,更是人工智能与机器人协同发展的新时代。随着科技的飞速发展,大型机器人与先进技术如GPT等大模型的融合成为了研究的热点。研究者们正尝试将多模态的大语言模型与机器人技术相结合,通过联合训练图像、文字和具身数据,引入多模态输入,从而增强机器人对现实世界的理解,应对复杂的具身推理任务。
在这方面,高新兴机器人正与华为云、上海交通大学、重庆大学等顶尖科研团队紧密合作。他们不仅提供了丰富的行业数据、语料库和机器人底层软件支持,还共同研发具身智能大模型,推动巡逻机器人的智能化进程。
值得一提的是,华为云推出的盘古大模型3.0,是面向行业的大模型系列中的佼佼者。其“5+N+X”的三层架构,使大模型能够满足不同行业和场景的需求。盘古大模型提供了从100亿到1000亿参数的系列化基础大模型,并具备知识问答、文案生成、代码生成等能力,以及图像生成和图像理解等多模态大模型的能力。无论参数规模大小,盘古大模型都提供了一致的能力集。
在这一架构中,“N”代表着针对不同行业的大模型定制。华为云可以根据行业客户的自有数据训练专有大模型。而“X”则聚焦更细化的行业应用场景,如政务热线、网点助手等,为客户提供开箱即用的模型服务。
高新兴机器人基于凤凰平台、梧桐平台和尚云平台构成的云边端一体化机器人系统,全面升级系统架构和技术架构,打造全新的基于具身智能大模型框架的云边端一体化3.0系统“千巡问义”。通过分布实施分布上线的策略,他们不仅提升了巡逻机器人的语言交互能力,还解决了其认知决策能力和执行能力等关键技术难题。
作为全球领先的巡逻机器人产品与服务提供商,高新兴机器人在“机器人+安全”领域深耕多年,布局了面向公共安全的巡逻机器人、面向社会安全的安保服务机器人以及面向工业安全的工业巡检机器人三大主营业务。他们致力于利用大模型技术突破巡逻机器人的技术难题,提高机器人的智能化水平和自主化能力,推动机器人在多个领域的产品与应用落地。他们用机器人守护安全,让科技为人们的生活带来更多便利和安全保障。