加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

发布时间:2019-09-03 18:34:54 所属栏目:建站 来源:机器之心
导读:GPU、TPU、CPU 都可以用于深度进修模子的实习,那么这几个平台各合用于哪种模子,又各有哪些瓶颈?在本文中,来自哈佛的研究者计划了一个用于深度进修的参数化基准测试套件ParaDnn,旨在体系地对这些深度进修平台举办基准测试。 ParaDnn 可以或许为全毗连(FC)、

图 2:FLOPS 的操作率及其与超参数的相干性。(a)–(c) 暗示参数化模子的 FLOPS 操作率。(d)–(f) 行使线性回归权重量化了模子超参数对 FLOPS 操作率的影响。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 3:全毗连收集和卷积神经收集在 TPU 上的 Roofline。矩阵相乘(MatMul)运算的负载是计较麋集型的。纵然是 Transformer 和 ResNet-50 这样的计较麋集型模子也具有 10% 以上的内存限定运算。(a) 和 (c) 展示了参数化模子和现实模子的 roofline。(b) 和 (d) 展示了运算的解析。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 4:多片体系中的通讯开销是不能忽略的,可是它会跟着 batch size 的增大而减小。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 5:FLOPS 操作率(顶部)和行使 float32 和 bfloat16 的现实模子在具有以及没稀有据筹备环境下的喂料时刻(装备守候数据的时刻)(底部)。具有较大喂料时刻百分比的模子(譬喻 RetinaNet 和 SqueezeNet)会受到数据喂入的限定。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 6:(a) 是 TPU v3 在运行端到端模子时与 v2 对比的加快比。(b) 和 (c) 是全毗连和卷积神经收集的加快比。TPU v3 更大的内存支持两倍的 batch size,以是假如它们具有更大的 batch size,内存受限的运算会具得到三倍加快,假如没有更大的 batch size,则是 1.5 倍的加快。在 v3 上计较受限的运算拥有 2.3 倍的加快。赤色的线 (75 Ops/Byte) 是 TPU v2 的 roofline 的拐点。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 7:具有牢靠层(64)的全毗连模子的 Examples/second(样本/秒)。Examples/second 跟着节点的增多而减小,跟着 batch size 的增大而增大。白色方块暗示模子碰着了内存不敷的题目。CPU 平台运行最大的模子,由于它具有最大的内存。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 8:具有大 batch size 的小型全毗连模子更偏好 TPU,具有小 batch size 的大型模子越发偏好 GPU,这意味着紧缩阵列对大型矩阵更好,在 GPU 上对小型矩阵做调动越发机动。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 9:对比于 CPU,具有大 batch size 的大型全毗连模子更得当 GPU,由于 CPU 的架构可以或许更好地操作特另外并行。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 10:(a)–(c):对大型卷积神经收集而言,TPU 是比 GPU 更好的选择,这意味着 TPU 是对卷积神经收集做了高度优化的。(d)–(e):尽量 TPU 对 RNN 是更好的选择,可是对付嵌入向量的计较,它并不像 GPU 一样机动。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 11:(顶部)在全部的负载上 TPU 相对 GPU 的加快比。必要留意的是,现实负载在 TPU 上会行使比 GPU 上更大的 batch size。ResNet-50 的英伟达 GPU 版原来自于文献 [9]。(底部)全部平台的 FLOPS 操作率比拟。

TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究

图 12:(a)TPU 机能跟着 TensorFlow 版本更新产生的变革。全部的 ParaDnn 模子都有晋升:Transformer, RetinaNet, 和 ResNet-50 晋升不变。(b)CUDA 和 TF 的差异版本上 GPU 的加快比。CUDA 9.2 对卷积神经收集的晋升要比其他 ParaDnn 模子更多,对 ResNet-50 的晋升要比其他现实模子更多。CUDA 10 没有晋升 RNN 和 SqueezeNet。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读