IBM宣称其呆板进修库比TensorFlow快46倍!
【编译】导读:在拉斯维加斯进行的 IBM THINK 2018 大会上,IBM声称,其POWER处事器上的呆板进修不只比Google Cloud中的TensorFlow更快,并且速率更快了46倍。他们行使一组由 Criteo 尝试室宣布的告白数据集(包括了 40 亿个实习样本)来实习逻辑回归分类器,功效只花了 91.5 秒就完成了整个实习进程,这一后果比之前陈诉的最好后果快了 46 倍。2017 年 2 月,谷歌云官方博客披露了一组尝试数据,他们在谷歌云平台上行使 TensorFlow 实习同样的模子,功效花了 70 分钟。 早在二月份,谷歌软件工程师Andreas Sterbenz写了关于行使Google Cloud Machine Learning和TensorFlow举办大局限告白和保举场景的点击猜测的文章。 他实习了一个模子来猜测Criteo尝试室的告白点击量,这些日记巨细高出1TB,并包括来自数百万展示告白的特性值和点击反馈。 数据预处理赏罚(60分钟)之后举办现实进修,行使60台工人呆板和29台参数呆板举办实习。该模子花了70分钟实习,评估丧失为0.1293,我们知道这是功效精确性的大致指标。 然后,Sterbenz行使了差异的建模技能来得到更好的功效,镌汰了评估丧失,但这些都耗费更长的时刻,以是,最终抉择利器具有三个时期的深度神经收集(怀抱全部实习矢量一次用来更新权重的次数的怀抱),耗时78小时。 但IBM对此并不感乐趣,他们但愿证明在POWER9处事器和GPU上运行的本身的实习框架可以在根基的初始实习上赛过谷歌云平台的89台呆板。 苏黎世IBM研究中心的Thomas Parnell和CelestineDünner行使沟通的源数据 - Criteo Terabyte点击日记,拥有42亿实习样例和100万个特性 - 以及沟通的ML模子、逻辑回归,可是是一个差异的ML库。它被称为Snap Machine Learning。 他们行使运行在四台Power System AC922处事器上的Snap ML运行集会会议,这意味着有8个POWER9 CPU和16个Nvidia Tesla V100 GPU在运行。因此,时刻耗费不是花70分钟,仅仅91.5秒就已经完成了,比早年快了46倍。 他们筹备了一张表现Snap ML、谷歌TensorFlow和其他三项功效的图表: TensorFlow的46倍速率改造不容轻蔑,他们将它归因于什么? 他们暗示Snap ML具有多条理的并行性,可以在集群中的差异节点间分派事变负载,操作加快器单位,并操作各个计较单位的多核并行性 1.起首,数据漫衍在集群中的各个事变节点上 2.在一个节点上,数据在CPU和GPU并行运行的主机CPU和加快GPU之间疏散 3.数据被发送到GPU中的多个焦点,而且CPU事变负载是多线程的 Snap ML具有嵌套的分层算法成果,可以操作这三个级此外并行性。 IBM研究职员并没有声称TensorFlow没有操作并行性,也不提供Snap ML和TensorFlow之间的较量。 但他们简直说:“我们实验专门的办理方案,旨在操作GPU的大局限并行架构,同时尊重GPU内存中的数据局部性,以停止大量数据传输开销。” 该陈诉称,回收NVLink 2.0接口的AC922处事器比回收其Tesla GPU的PCIe接口的Xeon处事器(Xeon Gold 6150 CPU @ 2.70GHz)要快。 “对付基于PCIe的配置,我们丈量的有用带宽为11.8GB /秒,对付基于NVLink的配置,我们丈量的有用带宽为68.1GB /秒。” 实习数据被发送到GPU,以在哪里被处理赏罚。NVLink体系以比PCIe体系快得多的速率向GPU发送数据块,时刻为55ms,而不是318ms。 IBM团队还暗示:“当我们应用于稀少数据布局时,我们对体系中行使的算法举办了一些新的优化。” 总的来说,好像Snap ML可以更多地操作Nvidia GPU,通过NVLink更快地将数据传输到它们,而不是通过商用x86处事器的PCIe链接。我们不知道POWER9 CPU怎样与Xeons对比怎样,就我们所知,IBM尚未果真宣布任何直接POWER9与Xeon SP的较量。 我们也不能说Snap ML比TensorFlow好几多,直到我们在沟通的硬件设置上运行两个吸盘。 无论是什么缘故起因,46倍的降幅都令人印象深刻,而且给了IBM很大的空间来敦促其POWER9处事器,作为插入Nvidia GPU的处所,运行Snap ML库以及举办呆板进修的场合。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |