AI从一专一能迈向多专多能

机器人培训 2025-01-15 16:40www.robotxin.com机器人培训

作为全球首个图、文、音三模态大模型,“紫东太初”无疑引领着人工智能发展的新潮流。它将图像、文本和语音三种不同模态的数据,实现了前所未有的“统一表示”与“相互生成”,展现出令人瞩目的创新力量。这一突破性的技术,让“以图生音”和“以音生图”成为可能,其理解和生成能力之至接近人类,为打造多模态人工智能行业应用提供了坚实的创新基础,标志着人类向通用人工智能迈出了重要的一步。

近日,在2022世界人工智能大会上,“紫东太初”项目荣获了大会的最高奖项。大会的主题“智联世界,元生”,恰好揭示了人工智能未来发展的两大方向——改造物理世界的智能联接,以及构建虚实融合的新型元宇宙。正如中国计算机行业协会数据安全专业委员会委员、北京理工大学网络与安全研究所所长闫怀志所言,通用人工智能旨在制造全面智能的机器,能够从事多类型工作,而“紫东太初”的推出,无疑为实现这一愿景打下了坚实的基础。

“紫东太初”还展现出部分类脑的特性。传统的人工智能主要依赖于人类的认知结果,但在不同感官之间缺乏确定的认知能力。而“紫东太初”却通过视觉、文本、语音不同模态的统一语义空间映射,实现了三模态间的相互转换和生成。这是人工智能发展的一大突破,使得人工智能能够更全面地理解和处理复杂的信息。

中国科学院自动化研究所研究员、武汉人工智能研究院院长王金桥表示,“紫东太初”模型的功能不仅仅局限于一种任务,而是可以实现多种任务的处理。该模型还突破了人工智能对大量样本的依赖,以及模型的泛化能力差的问题。王金桥强调,“紫东太初”基于自监督学习的多模态预训练模型是当前的一个重要发展路径,其自监督学习方式更接近于人类的学习模式。

自监督学习能够从大规模的无监督数据中挖掘出隐含的监督信息进行训练,从而得到对下游任务有价值的表征。而“紫东太初”正是通过这一方式,实现了图像、文本、语音等不同模态数据的跨模态统一表征和学习,突破了当前AI技术的局限。这使得“紫东太初”具备了部分类脑特性,从“一专一能”成功迈向了“多专多能”。

闫怀志指出,“以图生音”和“以音生图”虽然仍是一种基于数据的人工智能,但其理解和生成的方式更接近于人类,因此被视为从弱人工智能向通用人工智能迈进的重要基础性工作。而“紫东太初”正是实现这一跨越的关键。

简单来说,“紫东太初”通过将形式各异的三模态内容转化为统一的多模态知识表示,然后再次利用这种知识表示重新生成三模态内容,实现了“以图生音”和“以音生图”。这一过程中,四大核心突破有效助力了以多模态认知为核心的通用人工智能发展。

这一技术的实现,无疑为人工智能的发展开启了新的篇章。曾经,“以图生音”和“以音生图”只是幻想,但现在,“紫东太初”让这一切都成为了现实。多层次跨模态自监督学习框架的首次提出与行业应用实践

近日,人工智能领域迎来重大突破。首次提出的多层次、多任务跨模态自监督学习框架,不仅支持从词条级走向模态级的三级预训练自监督学习方式,还推动了弱关联多模态数据语义的统一表示,显著减少了数据收集与清洗的代价。这一创新框架的提出,标志着人工智能领域跨模态学习的新里程碑。

王金桥介绍道,“紫东太初”作为采用图、文、音三模态大模型的典型代表,其优势在于能够灵活支撑全场景的人工智能应用。与传统的单模态或图文两模态相比,“紫东太初”的多模态联合模型能力更强,能够实现跨模态检索、多模态分类、语音识别、图像生成等理解与生成任务。更令人瞩目的是,“紫东太初”在无监督情况下实现了多任务联合学习,并具备在不同领域数据间快速迁移的强大能力。通过引入语音模态后的多模态预训练模型,“紫东太初”成功实现了共性图文音语义空间表征和利用,突破了三模态的统一表示难题。

在智能制造领域,“紫东太初”不仅降低了模型训练对大量样本的依赖,提高了算法性能,还通过一系列典型的人工智能行业应用展示了其实力。值得一提的是,“紫东太初”与杭州移动共同打造的智能文旅虚拟人“杭小忆”,其在南宋御街的应用场景尤为突出。“紫东太初”的多模态对话能力支持陶瓷、丝绸、活字印刷、特色小吃等场景化数据的增量训练,为南宋御街赋予了语音识别、中文对话、语音交互以及以音生图等先进功能,极大地丰富了游客的交互体验。这一创新实践展示了人工智能技术在文旅行业的广阔前景和巨大潜力。

这一系列的突破与创新,不仅展现了人工智能技术的飞速发展,也为未来多模态人工智能应用的广泛落地打下了坚实的基础。随着技术的不断进步,我们有理由相信,“紫东太初”等多模态人工智能模型将在更多领域发挥重要作用,推动行业的智能化升级。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by