亚马逊自研云端AI训练芯片来了!明年下半年投入
编译| 林卓玮
编辑| 江心白
芯东西12月3日消息,亚马逊本周推出了自研云端AI训练定制芯片AIAWS Trainium,称其能显著降低训练成本。
据悉,相较基于英特尔AI训练芯片Habana Gaudi的亚马逊Elastic Compute Cloud(EC2)实例,基于AWS这款AI训练芯片的云端实例在可用性方面更为领先。
从2021年下半年起,Trainium将搭载于EC2实例和亚马逊完全托管SageMaker上,还将支持谷歌的TensorFlo、脸书的PyTorch和MxNet等主流框架。
▲在AWS re:Invent 2020大会上,亚马逊推出了自产芯片AWS Trainium。
一、结合Inferentia吞吐量提高30%,推断成本降低45%
亚马逊声称,Trainium的万亿次浮点运算能力是目前云上实例中最强的。与标准AWS GPU实例相比,Trainium将吞吐量提高30%,将每次推断成本降低45%。
,亚马逊表示将使用与其自研云端AI推理芯片Inferentia相同的Neuron SDK。Neuron SDK是用于推理的云托管芯片。
“推理成本通常占据基础架构成本的90%,Inferentia主要攻克了这部分的成本问题,不过许多开发团队仍受到固定训练预算的限制,” AWS官方博客中写道,“开发团队通常难以达到改善模型应用所需的训练规模和强度。”
通过将Trainium和Inferentia结合起来,AWS为客户提供了端到端的计算流程,在扩展训练量的,还加快了推理流程。
目前尚无Trainium跑分结果,还不清楚Trainium和谷歌TPU(张量处理单元)相比孰优孰劣。
谷歌表示,即将推出的第四代TPU ASIC提供了超出其第三代TPU两倍以上的矩阵乘法TFLOPS性能(矩阵通常用于表示输入到AI模型中的数据),在内存带宽上实现“显著”提升,并取得互联技术突破。
二、解决成本问题
的部署过去一直受到算法规模、速度及硬件成本的限制。
事实上, 麻省理工学院的一份报告发现,可能已接近算力极限。
根据Synced的一项研究,在为期约两周的训练中,华盛顿大学的Grover假新闻检测模型训练花费约25000美元(约为16.4万人民币)。
OpenAI在训练GPT-3语言模型上花费多达1200万美元(约为7880万人民币),而谷歌在训练BERT模型时,仅花费了6912美元(约为4.54万美元),该模型在11种测试中创下最佳成绩。
市场规模七年预计增长12倍
据业内相关数据,2017年全球市场的价值仅为15.8亿美元,到2024年预计将达到208.3亿美元,预计将增长12倍有余。
随着更多企业应用对引入AI产生需求,今年11月,亚马逊宣布将Alexa和Rekognition的部分计算任务转移到Inferentia支持的云端实例上,一方面继续降低成本,一方面提升工作效率,逐渐降低对Nvidia芯片的依赖。
在AWS Trainium落地后,亚马逊的业务将进一步向AI、训练以及推理加速服务倾斜。
文章来源VentureBeat
机器人工业设计
- 工业机器人技术专业方向 工业机器人技术专业方
- 国际上第一台工业机器人产品诞生于 世界上第一
- 工业机器人编程属于什么专业 工业机器人编程属
- 工业机器人编程是学的什么专业课程
- 工业机器人技术需要学什么 工业机器人技术需要
- 工业机器人编程是学的什么内容 工业机器人编程
- 工业机器人发展趋势 工业机器人未来的发展趋势
- 国内工业机器人企业排名 2024年国内工业机器人企
- 工业机器人学起来难不难 工业机器人好不好学
- 工业机器人就业形势了解 工业机器人就业现状
- 工业机器人编程及操作的阅读内容 工业机器人编
- 工业机器人编程难不难 工业机器人编程难不难学
- 工业机器人入门实用教程 工业机器人入门应该学
- 工业机器人编程基本思路是什么 工业机器人编程
- 工业机器人难学吗 工业机器人学起来难不难
- 工业机器人岗位介绍 工业机器人岗位说明