加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

提升12倍!香港浸会大学与MassGrid发布低带宽高效AI训练新算法

发布时间:2019-05-11 11:52:12 所属栏目:建站 来源:佚名
导读:本文经AI新媒体量子位(公家号ID:QbitAI)授权转载,转载请接洽出处。 跟实在习数据量的增进和深度神经收集(DNN)的日益伟大,漫衍式计较情形(如GPU集群)被普及回收,以加快DNN的实习。漫衍式计较收集在呆板进修方面的瓶颈在于节点之间的数据传输服从,

操作树状布局举办两两通讯,每次只传输k个非0值,而吸取者则会有2k个值,为下次传输也只传输k个值,吸取者从2k个值中再选出k个值转达给下一个吸取者。因为两两通讯是可以同时举办,因此对付P个节点,只必要logP轮通讯,一个8节点的示譬喻图3所示。

由图3可以看出,第1个节点在每一轮通讯中城市吸取另一个节点的k个非0元素,在最后一轮通讯后,第1个节点则选出了k个非0元素然后广播给其他节点,以是整体的通讯开销为:2αlogP + 4kβlogP。当呆板局限P变大时,gTop-k还能维持较高的扩展性。算法伪代码为图4所示。

△ 图3 对8个节点,共必要3轮通讯,每轮通讯只传输k个非0值

△ 图4 gTopKAllReduce算法伪代码

尝试功效

香港浸会大学异构计较尝试室与MassGrid的研究职员在32台矿机情形长举办尝试,每台矿机行使一个Nvidia P102-100显卡。

起首验证gTop-k S-SGD的收敛性。之后,对三种S-SGD算法(即基于浓密梯度的S-SGD,Top-k S-SGD和gTop-k S-SGD)的实习服从举办了较量。

尝试详细硬件设置如表II所示

用于尝试的神经收集设置如表III所示

gTop-k的收敛机能

总体来看,在差异数据集上三种差异范例的DNN的收敛功效表白研究职员提出的gTop-k S-SGD在实习时代不会破坏模子机能。

△ 图5 gTop-k S-SGD收敛机能

gTop-k的扩展机能

与S-SGD和Top-k S-SGD对比,在32个计较节点的集群情形上,gTop-k S-SGD比S-SGD快6.7倍,比Top-k S-SGD均匀快1.4倍。差异的模子和差异节点数加快好比图6和表IV所示。

△ 图6差异节点数的扩展服从比拟

△ 表7差异模子的扩展服从比拟

局部稀少化时刻(tcompr.)和通讯时刻(tcommu.)。功效如图11所示。

一方面,在VGG-16和AlexNet型号的时刻细分中通讯开销宏大于计较。由于VGG-16和AlexNet有三个完全毗连的层,具有大量参数,而计较速率相对较快。这些也反应出纵然行使gTop-k稀少化,图6中S-SGD的缩放服从也很低。

另一方面,通讯和稀少化的时刻远小于行使ResNet20和ResNet-50计较的时刻,这表白通讯计较比率低,因此纵然在低带宽收集上,扩展服从也可高达80%。

另外,应留意梯度稀少化所用的时刻是与VGG-16和AlexNet型号的计较时刻相等。首要缘故起因是GPU上的Top-k选择服从低下,而且在SIMD架构上高度并行化也许并非易事。研究职员将此作为将来的优化偏向。

尝试总结

漫衍式同步随机梯度降落(S-SGD)已经普及用于实习大局限深度神经收集(DNN),可是它凡是必要计较事变者(譬喻,GPU)之间很是高的通讯带宽以迭代互换梯度。

最近,已经提出了Top-k稀少化技能来镌汰工人之间要互换的数据量。Top-k稀少化可以将大部门梯度归零,而不会影响模子收敛。

通过对差异DNN的普及尝试,这一研究验证了gTop-k S-SGD与S-SGD具有险些同等的收敛机能,而且在泛化机能上只有稍微的降级。

在扩展服从方面,研究职员在具有32个GPU呆板的集群上(MassGrid矿机集群)评估gTop-k,这些呆板与1 Gbps以太网互连。

尝试功效表白,该要领比S-SGD实现了2.7-12倍的缩放服从,比现有的Top-k S-SGD进步了1.1-1.7倍。

传送门

论文原文链接:https://arxiv.org/abs/1901.04359

更多关于MassGrid的应用场景请查询:www.massgrid.com

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读