AI芯片最需要解决问题?
2020年备受关注的AI芯片创新峰会上姚颂谈及对行业现状的看法。他说,AI芯片这个词用得特别泛,AI领域本身就特别宽泛,有一小部分才是,中的一小部分才是深度学习,深度学习天然切分为训练和推理两个阶段,其中有数不过来的各种。
一个AI芯片可以指代的东西有很多,这是一个很宽泛的概念,按稍严格的分类,它可以分成训练、推理两个阶段,以及云端、终端两个应用场景。大家目前基本不在终端做训练,终端的场景象限基本是空的。
▲AI芯片分类根据AI的阶段与应用场景
AI芯片核心解决的是什么问题?去堆并行算力?实际并不是。
谷歌TPU第一代的论文中写道,其芯片最开始是为了自己设计的GoogLeNet做的优化,CNN0的部分就是谷歌自己设计的Inception ork,谷歌设计的峰值性能是每秒92TeraOps,而这个能跑到86,数值非常高;对于谷歌不太擅长的LSTM0,其性能只有3.7,LSTM1的性能只有2.8,原因在于它整个的存储系统的带宽其实不足以支撑跑这样的应用,因而造成了极大的算力浪费。
▲AI芯片最重要解决的是带宽不足的问题
AI芯片最重要解决的问题核心是带宽不足的问题,其中一种最粗暴且奢侈的方式就是用大量的片上SRAM(静态随机存取存储器),比如原来寒武纪用36MB DRAM做DianNao,深鉴科技曾用10.13MB SRAM做EIE,TPU采用过28MB SRAM。
而将这种工程美学发挥到中最“残暴”的公司,叫做Cerepas,它把一整个Wafer只切一片芯片,有18GB的SRAM,所有的数据、模型都存在片上,其性能爆棚。
这种方式是非常奢侈的,Cerepas要为它单独设计解决制冷、应力等问题,单片芯片的成本就在1百万美元左右,对外一片芯片卖500美元,这一价格非常高昂。业内就需要用微架构等其他方式解决这一问题。
业内常用的有两种解决方式
一是在操作时加一些buffer,因为是一个虽然并行,但层间又是串行的结构。把前一层的输出buffer住,或把它直接用到下一层作为输入。
二是在操作时做一些切块,因为规模比较大,每次将它切一小部分,比如16X16,把切出来这一块的计算一次性做完,在做这部分计算的时候同步开始取下一块的数据,让这件事像流水线一样串起来,就可以掩盖掉很多存储、读取的延迟。
现在在数字电路层面,业内更多在做一些架构的更新,根据不同的应用需求做架构的设计。 #AI #芯片
机器人技术
- 800多家中国机器人企业近半无产品
- 看看机器人在和你抢什么
- 马化腾、李彦宏等科技企业大佬们在贵阳大数据
- 机器人投入汽车产业园 探索机器人产业链
- 特斯拉 Cybertruck 电动皮卡换上黑色外衣,有望为
- 沁峰如何成为冲压机器人细分赛道国家专精特新
- 运动机器人智障了吗?
- Rivian 将投资 50 亿美元在佐治亚州建造电动汽车工
- 调查发布 - 制造业在疫情防控常态化下突围——
- 未来工业机器人的市场什么样的变化
- 进博会特斯拉展台最全预测 沉浸式体验智能制造
- 美国将中国电动汽车关税提高到 100%,极星 CEO 对
- DeepMind 联合创始人:交互式 AI 才会“改变人类”
- 把握发展趋势 推动机器人产业高质量发展
- AI入侵教师职业,这五类产品发展迅猛
- 他们用AI和食用植物创造“人工肉食”,你想尝尝