TPU、GPU、CPU深度进修平台哪家强？有人做了一个基准测试研究

发布时间：2019-09-03 18:34:54 所属栏目：建站来源：机器之心

导读：GPU、TPU、CPU 都可以用于深度进修模子的实习，那么这几个平台各合用于哪种模子，又各有哪些瓶颈?在本文中，来自哈佛的研究者计划了一个用于深度进修的参数化基准测试套件ParaDnn，旨在体系地对这些深度进修平台举办基准测试。 ParaDnn 可以或许为全毗连(FC)、

图 2：FLOPS 的操作率及其与超参数的相干性。(a)–(c) 暗示参数化模子的 FLOPS 操作率。(d)–(f) 行使线性回归权重量化了模子超参数对 FLOPS 操作率的影响。

图 3：全毗连收集和卷积神经收集在 TPU 上的 Roofline。矩阵相乘(MatMul)运算的负载是计较麋集型的。纵然是 Transformer 和 ResNet-50 这样的计较麋集型模子也具有 10% 以上的内存限定运算。(a) 和 (c) 展示了参数化模子和现实模子的 roofline。(b) 和 (d) 展示了运算的解析。

图 4：多片体系中的通讯开销是不能忽略的，可是它会跟着 batch size 的增大而减小。

图 5：FLOPS 操作率(顶部)和行使 float32 和 bfloat16 的现实模子在具有以及没稀有据筹备环境下的喂料时刻(装备守候数据的时刻)(底部)。具有较大喂料时刻百分比的模子(譬喻 RetinaNet 和 SqueezeNet)会受到数据喂入的限定。

图 6：(a) 是 TPU v3 在运行端到端模子时与 v2 对比的加快比。(b) 和 (c) 是全毗连和卷积神经收集的加快比。TPU v3 更大的内存支持两倍的 batch size，以是假如它们具有更大的 batch size，内存受限的运算会具得到三倍加快，假如没有更大的 batch size，则是 1.5 倍的加快。在 v3 上计较受限的运算拥有 2.3 倍的加快。赤色的线 (75 Ops/Byte) 是 TPU v2 的 roofline 的拐点。

图 7：具有牢靠层(64)的全毗连模子的 Examples/second(样本/秒)。Examples/second 跟着节点的增多而减小，跟着 batch size 的增大而增大。白色方块暗示模子碰着了内存不敷的题目。CPU 平台运行最大的模子，由于它具有最大的内存。

图 8：具有大 batch size 的小型全毗连模子更偏好 TPU，具有小 batch size 的大型模子越发偏好 GPU，这意味着紧缩阵列对大型矩阵更好，在 GPU 上对小型矩阵做调动越发机动。

图 9：对比于 CPU，具有大 batch size 的大型全毗连模子更得当 GPU，由于 CPU 的架构可以或许更好地操作特另外并行。

图 10：(a)–(c)：对大型卷积神经收集而言，TPU 是比 GPU 更好的选择，这意味着 TPU 是对卷积神经收集做了高度优化的。(d)–(e)：尽量 TPU 对 RNN 是更好的选择，可是对付嵌入向量的计较，它并不像 GPU 一样机动。

图 11：(顶部)在全部的负载上 TPU 相对 GPU 的加快比。必要留意的是，现实负载在 TPU 上会行使比 GPU 上更大的 batch size。ResNet-50 的英伟达 GPU 版原来自于文献 [9]。(底部)全部平台的 FLOPS 操作率比拟。

图 12：(a)TPU 机能跟着 TensorFlow 版本更新产生的变革。全部的 ParaDnn 模子都有晋升：Transformer, RetinaNet, 和 ResNet-50 晋升不变。(b)CUDA 和 TF 的差异版本上 GPU 的加快比。CUDA 9.2 对卷积神经收集的晋升要比其他 ParaDnn 模子更多，对 ResNet-50 的晋升要比其他现实模子更多。CUDA 10 没有晋升 RNN 和 SqueezeNet。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？