训练时间降低90%以上!世界最大的芯片WSE有望打
新智元报道
来源IEEE
编辑大明、edein
【新智元导读】还记得几个月前问世的世界最大的AI芯片吗?IEEE Spectrum团队最近访问了其制造商Cerepas的工厂,并对CEO和技术团队进行了访谈,CerepasCEO表示,这款划时代的芯片有望突破AI的计算瓶颈,将训练时间由几周缩短到几小时。戳右边链接上新智元小程序了解更多!
人工智能计算机初创公司Cerepas Systems CEO兼联合创始人Andre Feldman表示,如今的人工智能仅仅只是开始。
正如他及其同僚所言,问题在于当今的深度十分耗时且计算密集,训练非常困难。比如,汽车要识别道路上遇到的所有重要物体,需要向其显示所有物体的很多、很多相关图像。这一过程在数据中心进行,由耗电数十有时甚至数百千瓦的计算机完成,任务时间经常长达数周。
Cerepas的客户抱怨说,使用当下的计算机训练大型的时间可能长达6周。照这样,一年只能训练6个。“只有验证更多想法才会产生新想法,” Feldman说。“如果能在2或3个小时内完成[网络训练],就可以尝试数千个想法。”
当IEEE Spectrum访问位于美国加州Los Altos的Cerepas总部时,这些客户及一些潜在客户已经通过橙色光缆把他们的训练数据输入4台CS-1计算机。这些64厘米高的机器运转起来,每台消耗20千瓦,散发的热量通过墙上的一个洞流到硅谷的大街上。
从外面看,CS-1机身并不大,每个机箱大约3/4是冷却系统,余下的1/4则是真正的革命一台性能强悍的计算机,几乎完全由一整块芯片组成。这块芯片的面积高达46,255平方毫米,是任何一块可以买到的处理器芯片的50+倍。这就是由Cerepas生产的世界最大芯片Wafer Scale Engine (WSE),它有12,000亿个晶体管,400,000个AI可编程内核,18 GB超快速片上存储器(SRAM)和100Petabits /s的结构带宽。
Cerepas的统计数据令人震惊。据称,一个10机架TPU二代集群(现在已更新为Google AI计算机的第三代集群)所耗电量是其5倍,占用空间是其30倍,而性能仅有搭载WSE芯片的计算机的1/3。单块巨型芯片是否真正是AI社区所需,相信这个答案从今年开始就会清晰起来。美国加州山景城公司LinleyGroup的高级分析师Mike Demler说“ []模型日益复杂,能够快速训练或再训练确实很重要。”
Feldman说,2015年当Cerepas的创始人们开会时,他们想要打造完全适配当下AI工作场景的计算机,这些工作场景有若干项定义它们需要快速移动大量数据,它们需要内存接近于处理器内核,并且这些内核不需要处理其他内核正在处理的数据。
这立即给了公司资深的计算机架构师一些启发。,他们可以使用成千上万个专门用于相关计算的小型内核,而不是更少、更通用的内核;,这些内核应该互连在一起,可以快速而低耗的移动数据;,所有数据应该在处理器芯片上,而不是在单独的存储芯片上。
在这些内核之间来回移动数据的需求,正是WSE独特性的来源。两个内核之间移动数据最快、能耗最低的方法是将其放在同一硅基片。当数据必须从一个芯片传输至另一个芯片时,由于距离更长并且传递信号的“电线”必须更宽并且包装密度更低,从而在速度和功耗上大打折扣。
所有通信在硅上的驱动力,以及对小内核和本地存储器的渴望,都表明要尽可能生产大芯片,也许是整个硅晶圆那么大。Feldman说,很明显,我们做不到这一点,这显然有很大的好处。
数十年,工程师一直认为晶圆级芯片是一条死路。毕竟,IBM System/360大型机的首席架构师Gene Amdahl曾在一家名为Trilogy Systems的公司尝试并失败了,但它足够令人称奇。Lauterbach和Feldman说,任何与Amdahl方法的对比都已经过时。当时Amdahl使用的晶圆尺寸只有现在的1/10,而晶圆上相关器件的尺寸则是现在的30倍。
更重要的是,Trilogy无法处理生产芯片时出现的不可避免的错误。如果其他所有条件相同,随着芯片增大,缺陷的可能性也会增加。如果你的芯片尺寸接近于一张信纸(8.5" 11"规格),那么缺陷在所难免。
Lauterbach看到了一种架构解决方案由于他们针对的工作负载倾向于拥有数千个相同的小型内核,可以嵌入足够多的冗余内核,这甚至可以解决1/100的缺陷造成的故障,并且依然不失为一块功能强劲的大型芯片。
,Cerepas仍然不得不解决许多制造问题,才能打造其容错性的giganto芯片。比如,光刻工具被设计为将其定义特征的样式投射到相对较小的矩形上,并一遍遍重复进行。由于在晶片不同位置浇铸不同样式的高昂成本和巨大困难,这样已经把打造单一晶圆的许多系统拒之门外。
Cerepas内部冷却系统占CS-1大部分,WSE芯片位于左后角。
WSE无需这样。它就像布满相同芯片的典型晶圆,与你平常制造的一样。最大的挑战是把这些伪芯片连接在一起。
芯片制造商在每个芯片周围留下空白硅的细长边缘,称之为划片线。晶圆通常沿着这些线切成小块。Cerepas与台积电(TSMC)合作开发了一种跨划片线建立互连的方法,使每个伪芯片中的内核皆可通信。
现在,所有通信和内存在一块硅片上,数据传输可以畅通无阻,从而产生每秒1,000 PB的内核到内核带宽和每秒9 PB的SRAM到内核带宽。Feldman说,这不仅仅是多,而是带宽4个数量级的提升,因为我们在硅片上。
跨划片线互连并不是需要的唯一发明。制造芯片的硬件必须进行改良。即使电子设计自动化软件也要进行定制才能在如此大的芯片上工作。Feldman说,每条规则,每个工具,每个制造设备都旨在拾取一块正常大小“巧克力芯片曲奇”,而[我们]要交付的是整个曲奇烤盘;方法的每一步,我们都必须发明。
他接着说,晶圆级集成在人们视野中消失了40年,但它肯定会在某个时候再出现;既然Cerepas已经做到,那扇门可能也会向其他人打开。“我们认为其他人将寻求与我们合作解决AI以外的问题。”他又说。
2018年,Google、百度及一些学术顶级机构开始制定基准,允许系统之间进行一一对应的比较。结果,MLPerf于2018年5月发布了训练基准。
借助这些基准,训练技术在过去几年取得长足进步。Nvidia DGX SuperPOD(本质上是有1,500块GPU的超级计算机)可在80秒内完成ResNet-50图像分类问题,与之相比,Nvidia DGX-1(大约在2017年)花费了8个小时,K80(在2015年)花费了25天。
Cerepas尚未发布MLPerf结果,以及任何其他可独立一一核对的结果。相反,他们更倾向于让客户使用自己的和数据来试用CS-1。
分析师认为,这种做法很常见。“每个公司都根据自身业务开发相关模型,” Moor Insights的AI分析师Karl Freund说。“这是客户唯一关心的事情。”
举个例子,早期的客户阿贡国家实验室的需求很大。最近在训练以实时识别不同类型的引力波事件时,科学家使用了阿贡实验室耗电兆瓦级别的Theta超级计算机(排名第28的全球最强大系统)资源的1/4。
把功耗降到仅几千瓦对超算来说似乎是一个核心优势。这是否是一个吸引数据中心的卖点,不幸的是Lauterbach对此表示怀疑。他说“虽然许多数据中心都在谈节能降耗,但只是口头说说,实际上并不在意,他们真正想要的是性能。这是一个几乎和餐盘差不多大小的处理器芯片所能满足的。”
https://spectrum.ieee./semiconductors/processors/cerepass-giant-chip-ill-smash-deep-learnings-speed-barrier
图文直播|新智元小程序技术公开课第一期!
1月6日晚,16本Phthon系列教材作者董付国将在新智元小程序「如何编写有“Python味道”的Python代码?」,当天还有机会与大咖在线互动,答疑解惑,现在扫描下方海报二维码可抢占免费预约名额。
家用机器人
- 从初生创业到人工智能领域的佼佼者
- 人工智能产业的全面发展
- 中国人工智能已比肩世界
- 全球产业格局大调整 工业4.0掀半导体变革
- 机器人13年内将抢走全球8亿人饭碗 这些职业影响
- 懒人福音:三星新款 AI 冰箱支持电动开门
- 大疆机场,让无人机基础设施巡检迈向自动化、
- 能链智电开启充电机器人等创新业务 预计2023年收
- 人工智能创新应用先导区再扩容 智能经济渐行渐
- 集萃智造三栖机器人,灵活切换水、陆、空三栖
- 机器人产业发展规划(2016-2020年)发布
- 四大论坛日程出炉,创客、机器人、校外教育、
- 新发布14家“双跨”工业互联网平台
- 《中国制造2025》解读之:推动机器人发展
- 机器人为什么能写稿,以及它们能拿普利策奖吗
- 国产机器人发展方针研究,国产AI芯片再引关注,