加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

环球十大AI实习芯片大盘货

发布时间:2019-10-15 13:44:37 所属栏目:移动互联 来源:乾明
导读:本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 AI芯片哪家强?此刻,有直接的比拟与参考了。 英国一名资深芯片工程师James W. Hanlon,盘货了当前十大AI实习芯片。 并给出了各个指标的横向比拟,也是今朝对AI实习芯片最新的接头与梳

Graphcore IPU是这家公司的明星产物,其架构与大量具有小内存的简朴处理赏罚器高度并行,通过一个高带宽的“互换”互连毗连在一路。

环球十大AI实习芯片大盘货:华为昇腾910是中国独一入选

其架构在一个大容量同步并行(BSP)模子下运行,措施的执行凭证一系列计较和互换阶段举办。同步用于确保全部历程筹备好开始互换。

BSP模子是一个强盛的编程抽象,用于解除并发性风险,而且BSP的执行,应承计较和互换阶段充实操作芯片的能源,从而更好地节制功耗。可以通过链接10个IPU间链路来成立更大的IPU芯片体系。其焦点数据如下:

  • 16nm制程,236亿个晶体管,芯单方面积约莫为800平方毫米,功耗为150W,PCIe卡为300 W
  • 1216个处理赏罚器,在FP32累加的环境下,FP16算法峰值到达125 TFLOPs
  • 漫衍在处理赏罚器焦点之间有300 MB的片上内存,提供45 TBps的总会见带宽
  • 全部的模子状态生涯在芯片上,没有直接毗连DRAM

IO数据:

  • 2x PCIe-4的主机传输链接
  • 10倍的卡间IPU链接
  • 共384GBps的传输带宽

单核数据:

  • 殽杂精度浮点随机算法
  • 最多运行六个线程

拓展阅读:

创立两年估值17亿美元,这家Hinton点赞的AI芯片公司获宝马微软投资

Habana Labs Gaudi

Habana Labs同样创立于2016年,是一家以色列AI芯片公司。

2018年11月,完成7500万美元的B轮募资,总募资约1.2亿美元。

Gaudi芯片于本年6月表态,直接对标英伟达的V100。

其整体的计划,与GPU也有相似之处,尤其是更多的SIMD并行性和HBM2内存。

环球十大AI实习芯片大盘货:华为昇腾910是中国独一入选

芯片集成了10个100G 以太网链路,支持长途直接内存会见(RDMA)。与英伟达的NVLink或OpenCAPI对比,这种数据传输成果应承行使商用收集装备构建大型体系。其焦点数据如下:

  • TSMC 16 nm制程(CoWoS工艺),芯片尺寸约莫为500平方毫米
  • 异构架构:GEMM操纵引擎、8个张量处理赏罚核(TPCs)
  • SRAM内存共享
  • PCIe卡功耗为200W,夹层卡为300W
  • 片上内存未知

TPC焦点数据:

  • VLIW SIMD并行性和一个当地SRAM内存
  • 支持殽杂精度运算:FP32、 BF16,以及整数名目运算(INT32、INT16、INT8、UINT32、UINT8)
  • 随机数天生、逾越函数:Sigmoid、Tanh、GeLU

IO数据:

  • 4x 提供32 GB的HBM2-2000 DRAM 仓库, 整体达1 TBps
  • 芯片上集成10x 100GbE 接口,支持融合以太网上的 RDMA (RoCE v2)
  • PCIe-4 x16主机接口

Huawei Ascend 910

华为昇腾910,同样直接对标英伟达V100,于本年8月份正式商用,号称业内算力最强的AI实习芯片。主打深度进修的实习场景,首要客户面向AI数据科学家和工程师。

环球十大AI实习芯片大盘货

其焦点数据为:

  • 7nm+EUV工艺,456平方毫米
  • 集成4个96平方毫米的 HBM2栈和 Nimbus IO处理赏罚器芯片
  • 32个达芬奇内核
  • FP16机能峰值256TFLOPs (32x4096x2) ,是 INT8的两倍
  • 32 MB的片上 SRAM (L2缓存)
  • 功耗350W

互联和IO数据:

  • 内核在6 x 4的2d网格封包互换网路中彼此毗连,每个内核提供128 GBps 的双向带宽
  • 4 TBps的L2缓存会见
  • 1.2 TBps HBM2接入带宽
  • 3x30GBps 芯片内部 IOs
  • 2 x 25 GBps RoCE 收集接口

单个达芬奇内核数据:

  • 3D 16x16x16矩阵乘法单位,提供4,096个 FP16 MACs 和8,192个 INT8 MACs
  • 针对 FP32(x64)、 FP16(x128)和 INT8(x256)的2,048位 SIMD 向量运算
  • 支持标量操纵

拓展阅读:

华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架,对标TensorFlow和PyTorch

Intel NNP-T

这是Xeon Phi之后,英特尔再次进军AI实习芯片,历时4年,壕购4家创业公司,耗费高出5亿美元,在本年8月份宣布。

神经收集实习处理赏罚器NNP-T中的“T”指Train,也就是嗣魅这款芯片用于AI推理,处理赏罚器代号为Spring Crest。

NNP-T将由英特尔的竞争敌手台积电(TSMC)制造,回收16nm FF+工艺。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读