创18项世界纪录,浪潮打造AI应用最强服务器
作为AI性能测试组织,MLPerf的一举一动都会引起整个行业的关注。日前,MLPerf更是公布了最新推理基准测试成绩,其中浪潮NF5488A5 AI服务器一举打破18项基准测试性能记录,成为当之无愧的最强AI服务器。
浪潮NF5488A5创造18项MLPerf推理性能记录
那么,MLPerf组织的价值是什么?浪潮NF5488A5 AI服务器为何有能力打破18项纪录?测试成绩与实际应用的表现有差距吗?AI服务器的场景化能力如何?……要想回答这个问题,先要从MLPerf组织说起。
成立两年美誉无数,MLPerf组织咋就这么强
说起MLPerf组织的名字,许多人可能觉得陌生,要提到大名鼎鼎的AI应用测试,不少人就会焕然大悟。没错,自2018年初成立之后, MLPerf组织就一直在稳步实现深度学习的Benchmark测试程序。
虽然成立时间不长,MLPerf组织的成员可谓是人才济济,既包括英特尔、NVIDIA、Facebook、、谷歌等顶级人工智能公司,也有Cerepas、Mythic和Sambanova等创业公司,还包括斯坦福、哈佛、多伦多大学等10多所高校。
面对当下热门的应用,MLPerf已经形成了一整套相对完备和公平的方法,这也就是业内常说的MLPerf训练基准测试套件。它是业界推出的首款致力于测量软硬件性能的通用标准的系统,测试标准涵盖计算机视觉、语言翻译、个性化推荐以及强化学习任务等领域。
如果你关注AI领域发展的话,你会发现近两年涌现出的众多AI芯片都已经将MLPerf测试成绩作为对外传播的黄金标准,特别是对于Training系统的测试与应用来说,MLPerf也已经达到了业界领先。如此一来,谁能够在MLPerf测试中脱颖而出,谁就能够成为AI领域冉冉升起的“超新星”。
那么,一举打破18项MLperf推理性能记录的浪潮NF5488A5服务器在性能上究竟有哪些过人之处,它所经历的测试项目又包括哪些呢?我们下面就来详细的看看。
打破18项纪录,浪潮NF5488A5服务器因何致胜?
破纪录一时爽,一直破纪录一直爽。
浪潮NF5488A5服务器就处于这样的状态。根据MLPerf公开的信息显示,浪潮NF5488A5本次打破的18项记录覆盖图像分类、自然语言理解、智能推荐、等场景。其中在Res50模型推理任务处理达到每秒处理32万多张图片;Bert 自然语言理解推理任务达26675条/秒;DLRM智能推荐每秒推理处理能力达210万条。
这也同样是“了不起的挑战”。我们知道,MLPerf推理基准测试设有六个基准,重点面向图像分类、目标物体识别检测、医学影像分割、机器翻译、和智能推荐等常见任务,也包括了面向后端数据中心和前端边缘侧的两大系列Benchamrk,覆盖了不同的业务场景。
这其中,数据中心场景设计包括图像分类、物体检测、语言翻译(gmnt)、语义理解、智能推荐等测试,而边缘端场景则包括(Sphereface20)、(DeepSpeech2)、翻译(gmnt)等等。换句话说,浪潮NF5488A5服务器已经证明了自己能够在几乎整个数据中心应用场景中发挥作用打破数据中心22个赛道中的13项性能记录,以绝对优势领先其他品牌。
各服务器MLPerf AI推理性能对比
一直以来,英伟达NVIDIA都被视为AI应用的鼻祖,几乎所有的AI应用特别是Training应用都是基于英伟达NVIDIA的GPU来实现的。那么DGX系统作为英伟达NVIDIA标志性的AI平台,是否能够在测试中拔得头筹呢?答案是否定的。在官方公布的数据中,DGX系统的表现的确抢眼,但浪潮NF5488A5服务器凭借更胜一筹,更高的测试成绩也超过了包括广达等多家参比的服务器厂商。
不仅是Benchmark,专家团队护航浪潮夺冠
虽然取得了这么多的成就,这并不意味着浪潮NF5488A5 AI服务器只能运行Benchmark。事实上,恰恰是考虑到了某些“刷榜”问题,MLPerf推理基准测试被分为了2个分区封闭模型分区(ClosedModel Division)和开放模型分区(Open Model Division)。这其中,封闭模型要求使用相同模型和优化器,而开放模型放开了对深度学习模型及精度的约束,更侧重于深度学习模型及算法优化的能力。
由此看来,浪潮NF5488A5的获胜不存在半分侥幸,甚至可以说这沉甸甸的荣誉背后,也有很大一部分来自于优化团队的功劳。其实早在多年前,浪潮便组建了AI服务器研发团队,从系统架构层面入手,针对硬件、软件和应用等多个维度进行优化,也凭借永不服输的勇气和精益求精的工匠精神毅然推进AI服务器创新进程,跨越AI训练的“三座大山”效率、弹性和密度。
别看我们说的轻松,实际的优化工作却是枯燥又精细的,工程师们一次次的尝试,只为获得最佳的性能体验在硬件层面,通过对CPU、GPU硬件性能的精细校准和全面优化,使CPU性能、GPU性能、CPU与GPU之间的数据通路均处于对深度学习推理最优的状态;在软件层面,结合GPU硬件拓扑对多GPU的轮询调度优化使单卡至多卡性能达到了近似线性扩展。
Res50模型优化性能提升1.8倍
比如我们刚才提到的Res50项目就是如此。优化团队的工程师们在硬件层面,通过对CPU、GPU硬件性能的精细校准和全面优化,使CPU性能、GPU性能、CPU与GPU之间的数据通路均处于对AI推理最优状态;在软件层面,结合GPU硬件拓扑对多GPU的轮询调度优化使单卡至多卡性能达到了近似线性扩展;在深度学习算法层面,结合GPU Tensor Core 单元的计算特征,通过自研通道压缩算法成功实现了模型的极致性能优化,在精度无损的情况下性能提升近2倍。
为什么浪潮NF5488A5AI服务器能够如此出色的表现?这源于出色的硬件架构、不断的软件与应用优化。为了更好的适应AI应用场景,NF5488A5服务器采用了NUMA绑定策略,显著提升了CPU与GPU的数据传输效率。在能效和散热方面,NF5488A5能够完美满足35摄氏度环境温度下工作,为极端环境下的高性能AI计算提供了可靠保证。
从2015年英伟达NVIDIA再度强调深度学习的概念到如今,AI在GPU的加持下已经成为了IT产业发展的主流之一,而浪潮也是业界首家提出AI服务器概念并且在这一领域进行大规模研发投入的,所以才有了今天耀眼的成就。如今浪潮的AI服务器已经广泛应用于互联网、制造业、新零售等多个领域,也正在打造更多、更强的“智算中心”。
在AI的道路上,浪潮还将义无反顾的走下去。
机器人工业设计
- 工业机器人技术专业方向 工业机器人技术专业方
- 国际上第一台工业机器人产品诞生于 世界上第一
- 工业机器人编程属于什么专业 工业机器人编程属
- 工业机器人编程是学的什么专业课程
- 工业机器人技术需要学什么 工业机器人技术需要
- 工业机器人编程是学的什么内容 工业机器人编程
- 工业机器人发展趋势 工业机器人未来的发展趋势
- 国内工业机器人企业排名 2024年国内工业机器人企
- 工业机器人学起来难不难 工业机器人好不好学
- 工业机器人就业形势了解 工业机器人就业现状
- 工业机器人编程及操作的阅读内容 工业机器人编
- 工业机器人编程难不难 工业机器人编程难不难学
- 工业机器人入门实用教程 工业机器人入门应该学
- 工业机器人编程基本思路是什么 工业机器人编程
- 工业机器人难学吗 工业机器人学起来难不难
- 工业机器人岗位介绍 工业机器人岗位说明