TPU、GPU、CPU深度进修平台哪家强?有人做了一个基准测试研究
图 2:FLOPS 的操作率及其与超参数的相干性。(a)–(c) 暗示参数化模子的 FLOPS 操作率。(d)–(f) 行使线性回归权重量化了模子超参数对 FLOPS 操作率的影响。 ![]() 图 3:全毗连收集和卷积神经收集在 TPU 上的 Roofline。矩阵相乘(MatMul)运算的负载是计较麋集型的。纵然是 Transformer 和 ResNet-50 这样的计较麋集型模子也具有 10% 以上的内存限定运算。(a) 和 (c) 展示了参数化模子和现实模子的 roofline。(b) 和 (d) 展示了运算的解析。 ![]() 图 4:多片体系中的通讯开销是不能忽略的,可是它会跟着 batch size 的增大而减小。 ![]() 图 5:FLOPS 操作率(顶部)和行使 float32 和 bfloat16 的现实模子在具有以及没稀有据筹备环境下的喂料时刻(装备守候数据的时刻)(底部)。具有较大喂料时刻百分比的模子(譬喻 RetinaNet 和 SqueezeNet)会受到数据喂入的限定。 ![]() 图 6:(a) 是 TPU v3 在运行端到端模子时与 v2 对比的加快比。(b) 和 (c) 是全毗连和卷积神经收集的加快比。TPU v3 更大的内存支持两倍的 batch size,以是假如它们具有更大的 batch size,内存受限的运算会具得到三倍加快,假如没有更大的 batch size,则是 1.5 倍的加快。在 v3 上计较受限的运算拥有 2.3 倍的加快。赤色的线 (75 Ops/Byte) 是 TPU v2 的 roofline 的拐点。 ![]() 图 7:具有牢靠层(64)的全毗连模子的 Examples/second(样本/秒)。Examples/second 跟着节点的增多而减小,跟着 batch size 的增大而增大。白色方块暗示模子碰着了内存不敷的题目。CPU 平台运行最大的模子,由于它具有最大的内存。 ![]() 图 8:具有大 batch size 的小型全毗连模子更偏好 TPU,具有小 batch size 的大型模子越发偏好 GPU,这意味着紧缩阵列对大型矩阵更好,在 GPU 上对小型矩阵做调动越发机动。 ![]() 图 9:对比于 CPU,具有大 batch size 的大型全毗连模子更得当 GPU,由于 CPU 的架构可以或许更好地操作特另外并行。 ![]() 图 10:(a)–(c):对大型卷积神经收集而言,TPU 是比 GPU 更好的选择,这意味着 TPU 是对卷积神经收集做了高度优化的。(d)–(e):尽量 TPU 对 RNN 是更好的选择,可是对付嵌入向量的计较,它并不像 GPU 一样机动。 ![]() 图 11:(顶部)在全部的负载上 TPU 相对 GPU 的加快比。必要留意的是,现实负载在 TPU 上会行使比 GPU 上更大的 batch size。ResNet-50 的英伟达 GPU 版原来自于文献 [9]。(底部)全部平台的 FLOPS 操作率比拟。 ![]() 图 12:(a)TPU 机能跟着 TensorFlow 版本更新产生的变革。全部的 ParaDnn 模子都有晋升:Transformer, RetinaNet, 和 ResNet-50 晋升不变。(b)CUDA 和 TF 的差异版本上 GPU 的加快比。CUDA 9.2 对卷积神经收集的晋升要比其他 ParaDnn 模子更多,对 ResNet-50 的晋升要比其他现实模子更多。CUDA 10 没有晋升 RNN 和 SqueezeNet。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |