应对无限计算需求,英伟达AI能力再升级

工业机器人 2021-06-01 09:04www.robotxin.com工业机器人教育
每年的11月中旬,都是一年一度的“超算周”。

因为每年的这个时间,全球规模最大、参与人数最多、影响力最为深远的SC超算大会都会在美国召开,更会发布全球领先的TOP500超算排行榜。即便今年因为疫情因素,会议被迫改为了线上,但报名人数反而更多了没有了线上的束缚之后,原本一周的会期被增加到了三周,包括会议、论文、比赛、展示等多个环节。

而就在北京时间17日凌晨5点,第56届全球超算TOP500排行榜公布。虽然来自日本的Fugaku超级计算机蝉联冠军,但仅仅是排名前十的系统中就新增了两名新成员,而且他们无一例外的都采用了异构架构用英伟达的GPU进行加速。

其实早在2012年荣膺世界第一的Titan超级计算机开始,英伟达就与TOP500结下了不解之缘。随后,绝大多数顶尖超算平台都采用了英伟达的GPU加速,出色的性能、便捷的应用使得越来越多的平台也加入了英伟达阵营。尤其是在、深度学习等人工智能应用出现并普及之后,英伟达的GPU就成为了最受用户喜爱的AI加速器。

本次榜单的TOP10

以本次TOP500榜单为例,500套系统中共有149套系统正在使用加速器/协处理器技术,相对于6个月前的榜单来说有了进一步提升。而在这149套系统中,有140套系统采用的是英伟达GPU加速器,这也证明了NVIDIA在异构领域的绝对霸主地位。仅在大家最关注的TOP10超算中,就有6套系统采用了英伟达GPU加速器,今年刚刚发布的A100也占据了其中三分之一的份额。

榜样的力量是无穷的,几乎所有超算或者HPC从业者都意识到了英伟达GPU加速器的价值。正因为对于性能的无限追求,用户希望英伟达能够推出更大、更快、更强的GPU,使得AI训练或者应用的响应时间进一步缩短。也就是在这次SC20大会上,英伟达就如愿发布了这样的一款产品A100 80GB GPU。

英伟达最新发布的A100 80GB GPU

从名字就能看出来,A10080GB GPU的内存容量是原有A100型号的两倍,这不禁让我想到了苹果的那句广告词Bigger than Bigger。A100 80GB GPU显然并不只是“大”,按照NVIDIA 应用深度学习研究副总裁 Bryan Catanzaro的话说,它还具备了“更高的带宽,突破了每秒2TB的限制,使研究人员可以应对全球科学及方面最严峻的挑战”。

按照英伟达的说法,A10080GB可实现高达3倍加速,这样用户在进行类似于

DLRM 等AI 训练提供了的时候也就会更为轻松;超大容量的它还能够训练诸如GPT-2这样的大型模型,解决传统训练中跨节点运行缓慢,耗时严重等问题。

并不是所有客户都需要这么大的容量,所以英伟达也为A100 80GB搭载了其特色的多实例GPU(MIG)技术,使得A100 80GB最多能够被分割为7个GPU实例。这样一来也大大提升了GPU对于较小工作负载的利用率,比如对于RNN-T等自动语言识别模型的处理中,单个A100 80GB MIG实例可处理更大规模的批量数据,将生产中的推理吞吐量提高1.25倍。

更大、更快、更强,这也恰恰是A100 80GB GPU所实现的价值所在。与大多数人印象中不同的是,翻倍的内存容量在带来更高吞吐量和带宽的,也可以通过物理隔离的手段让客户运行多个实例,提升运行效率。包括结构化稀疏、第三代 NVLink 和NVSitch等功能也是A100 80GB GPU所具备的,在AI推理能力和互连能力上也有所进步。

就在英伟达发布A10080GB GPU的第一时间,浪潮就宣布在自家NF5488M5-D和NF5488A5两台服务器上实现对其支持。除此之外,包括HPE、戴尔、联想、富士通等多家服务器公司也表示支持A100 80GB GPU,足以看出业界对于英伟达的认可与信赖。

英伟达最新发布的DGX Station A100工作组服务器

除了发布一款“巨无霸”级别的GPU之外,英伟达也宣布了DGXStation的升级版新款产品被命名为DGXStation A100,也是唯一配备4个A100Tensor Core GPU的工作组服务器,其性能达到了恐怖的2.5petaflops。要知道,这届TOP500榜单的入门级别只要1.32petaflops,而2.5petaflops这个成绩与排名第150位的美国Cascade超级计算机相当。

之所以在发布之初就具备如此强悍的实力,得益于DGX Station A100所具备的320GB GPU内存,它也是唯一支持多实例 GPU(MIG)技术的工作组服务器,借助于 MIG,单一 DGX Station A100最多可提供28个独立GPU实例以运行并行任务,不影响系统性能前提下支持多用户。

是的,你发现了,DGXStation A100的参数指标是我们刚刚提到的A100 80GB GPU的4倍,换句话说DGX Station A100也就是由刚刚发布的A100 80GB GPU构成的。在性能方面尤其是GPU擅长 AI训练方面,DGX Station A100的性能相对于上一代提升了4倍,而对于 BERT Large AI 训练等复杂模型性能也有了近3倍的提升。

这里我们需要特别说明的是,DGX Station A100作为英伟达第二代人工智能系统,其配置已经从原有的英特尔至强平台转向AMD第二代霄龙平台。对此,NVIDIA副总裁 、DGX系统总经理Charlie Boyle表示“我们在选择平台的时候并不关注品牌,而是在乎实际的性能表现,我们总是把最好的平台提供给客户”。

许多人可能会关心如此强大性能的平台是不是需要有专属的数据中心?其实并非如此。作为工作组服务器,DGX Station A100并不需要高散热的数据中心,只要放在办公室中就可以稳定运行,所以从这个角度来说它更像是一台工作站。“DGX Station A100可以接入任何地方,提供AI服务”,Charlie Boyle表示。

如今,已经有宝马集团、 德国人工智能研究中心(DFKI)、NTT Doo、太平洋西北国家实验室(PNNL)等公司,正基于DGX Station开发部署 AI 模型或展开相关研究。这也恰恰印证了我们刚刚提到的业界对于GPU性能有着无限的追求,再快都不嫌快。

一直以来,英伟达都给我们强大的计算体验,帮助我们更好的进入AI时代。从今年开始,英伟达还能够为我们提供强大的互连能力。同样是在这次SC20大会上,英伟达发布了Mellanox 400G InfiniBand,这也是在收购之后发布的第一款重磅级产品。

就专业应用来说,InfiniBand都是HPC应用的核心技术之一。从这次TOP500榜单来看,虽然榜单中大约一半的系统(254套)使用了以太网,大约三分之一的系统(182套)使用了InfiniBand网络,就实际总量来说InfiniBand系统占据主导地位,性能超过万亿级。在排名前十的超算系统中,更是有7套都采用了InfiniBand网络,其中5套为HDR(200G)系统,2套为EDR(100G)系统。500套系统中有47套采用了HDR、有74套采用了EDR,还有更多系统采用了慢一些的QDR或FDR。

如此也同样看出超算对于网络互连和带宽的性能追求。InfiniBand网络的特色就是低延迟、高带宽,越大的带宽意味着通过的数据量越多,越可以提升系统的交互能力。为此,英伟达特别发布了Mellanox 400G InfiniBand,为人工智能开发人员和科研人员提供最快的网络性能。

Mellanox InfiniBand NDR 400Gb/s全产品线

官方资料显示,MellanoxInfiniBand NDR 400Gb/s产品在上一代的基础上实现了性能与吞吐量的翻倍,并拥有网卡、芯片、交换、网线接口等多种产品。其中交换机可以提供3倍的端口密度,第三代NVIDIA Mellanox SHARP技术使InfiniBand网络能够卸载并加速深度学习训练操作,使AI加速能力提高32倍,也更适合未来的E级计算。虽然性能提升,在总体拥有成本上Mellanox InfiniBand NDR 400Gb/s反而进一步降低,因为聚合双向吞吐量提高了5倍,用户则可以选择更多端口的交换机。

虽然英伟达表示MellanoxInfiniBand NDR 400Gb/s产品可能要到半年后的2021年第二季度才能开始提供样品,依然有不少机构对其表现出了浓厚的兴趣包括微软公司、美国Los Alamos国家实验室、Jülich超算中心等多家机构都表现出了对新产品的期待,并期待“双方持续保持紧密的合作伙伴关系”。

或许你已经发现了,虽然英伟达仅仅是发布了这三大类产品,但市场却已经早早的做出了反应,无论是合作伙伴还是客户都率先表达了对英伟达的支持与信任。之所以如此,恰恰是因为英伟达迎合了当下整个业界对对计算、互联的无限追求,迎合了用户对于AI加速器和网络设备性能的迫切期待,也迎合了蓬勃发展的人工智能大潮。

显然,在迈向百亿亿次计算未来的道路上,英伟达为用户提供了更丰富和更强大的工具,也让自己的AI之路越走越宽。

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by