加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长百科 > 正文

现场直播|Mellanox资深体系工程师于若信:面向将来数据的收集技能

发布时间:2018-10-19 01:53:46 所属栏目:站长百科 来源:中国IDC圈
导读:10月17日,2018年开放数据峰会(Open Data Center Summit 2018,下文简称ODCC)数据中心收集分论坛在北京国际集会会议中心举行。ODCC存眷数据中心财富的各个方面,从国度政策和礼貌,随处所制度和项目,从财富全局成长到详细技能落地,从尖端热门技能到传统行
副问题[/!--empirenews.page--]

10月17日,2018年开放数据峰会(Open Data Center Summit 2018,下文简称ODCC)数据中心收集分论坛在北京国际集会会议中心举行。ODCC存眷数据中心财富的各个方面,从国度政策和礼貌,随处所制度和项目,从财富全局成长到详细技能落地,从尖端热门技能到传统行业推广,从海内到国际,从宏观到微观,尽力敦促中国数据中心财富成长。

以下是Mellanox资深体系工程师于若信的演讲实录:

图片1

各人早上好,很是兴奋能与各人举办交换。数据快速增添、模子算法越发优化,要开释数据能量、施展体系算力,必要有高带宽、低耽误、“更智慧”的高速互联收集,收集内计较和RDMA/RoCE将起到要害的浸染。此刻已经到了E级计较的阶段,我们可以看到从SMP到Cluster,从单核到众核,当越来越多的算力来自于GPU,体系机能城市碰着瓶颈,E级计较Co-Design聚焦于体系的扩展手段和应用的线性加快比,使计较体系有很大的可扩展性,假如我们应用不可以或许扩展到更多核数的话,也并不是我们要到达的目标。

以是从E级计较的角度来讲,不仅是硬件的会萃,更多的是聚焦在应用层面上,算法层面上,以及应用怎么能扩展到整个体系的局限。

从本年Top500的功效看,很明明有两个特点,第一个是计较手段更多来自GPU,譬喻Summit体系95%的运算手段都来自GPU,第二个特点是HPC和AI交叉在一路的,就更明明晰。情景预告、金融说明、生命科学、石油勘察等等都有一些应用融合了HPC和AI。可以看到尽量它们的事变负载纷歧样,可是收集要求都沟通,都必要高带宽、低耽误的互联收集方案。

数据中心的数据处理赏罚将从“CPU为中心”转换到“以数据为中心”,数据在什么处所我们就对数据举办处理赏罚,在数据传输进程中收集起首是感知到数据的,以是在收集上可以对数据举办处理赏罚,收集酿成了CPU的协处理赏罚器。收集可以举办数据处理赏罚的事变着实有许多,可以交给收集来做。Data Centrlc这样的办理方案,我们有许多器材来实现这样的成果。

RDMA可以用在哪几个方面呢?MPI、SHMEM、PGAS都可以支持,很是成熟。尚有AI规模,此刻险些全部的框架都支持RDMA,虽然尚有大数据说明内里的spark、Hadoop,可以用RDMA,我们也有一些测试、例子,在高频买卖营业、数据库、以及漫衍式数据库办理方案都可以用到RDMA办理方案,尚有存储,包罗文件体系,像常见的并行文件体系都可以支持RDMA。

这是简朴的框架,“收集内计较”在AI内里有很是得当的应用场景,SHARP就是聚合类通讯的软件,RDMA就是长途之间的会见。Mellanox两个产物线都可以支持RDMA,原生的InfiniBand RDMA服从是最高的,延时是最低的,假如是以太网RoCE,都可以支持到中间件,支持上面所列出的AI框架。尤其是多GPU情形里也有RDMA,可以实现从一个GPU到另一个GPU数据传输,而没有中间任何拷贝,也没有中间任何OS kernel负荷,这些技能都可以应用到上面。

SHARP是聚合类通讯软件,客户提交MPI功课也许必要求均匀值,求一个最小值乃至是逻辑操纵,计较完再发送到全部核上操纵,早年是CPU要做的,CPU负载很是高,此刻我们互换机是可以支持的。

假如基于硬件来看的话,跟着节点数目的增进,延时根基上实现是不变的。相对付CPU做的话,延时根基上是很快的,或许有10倍的差距。假如是30—40微秒用CPU做的话,用SHARP做的话是3—4微秒。

以MiniFE有限元说明应用为例,基于CPU做和基于聚合类通迅做相比拟,SHARP晋升也还长短常明明的,有10—25倍的晋升。提供差异行业的应用的最佳实践,可以辅佐客户怎样操作SHARP加快聚合类应用。

SHARP最早是HPC里用的很是多的,在AI出格是深度进修的数据并行的时辰许多操纵是跟HPC很是相同的,就是聚合类通讯的操纵。以是我们在AI里也可以用到SHARP,好比说是数据并行的应用模式。有许多Worker拿到模子之后必要做一些实习,会有一些节点梯度均匀、梯度同步,同步完了之后要有一个参数处事器,更新的模子再发给Worker去实习,现实上就是这样一个操纵。我们就可以用到SHARP这种技能。SHARP有两点,第一点可以极大的镌汰节点之间数据通信,我们不必要从这个节点把数据传到其它一个节点,我们直接给互换机就可以了,互换机去做事变,这是镌汰节点间通讯,尤其是对付AI实习的时辰节点很是多的应用场景来说,结果长短常明明的。

其它SHARP可以极大的低落CPU的行使率,由于我们可以把CPU事变负载举办事变,AI内里也可以用到这样的技能。

今朝我们已经正式宣布了HDR,就是200G的互换机和网卡、线缆,EDR和HDR都可以支持SHARP成果,并且SHARP成果已经在今朝最快的环球超等计较机里获得了很好的应用。

其它就是Tag Matching,一个点到另一个点传输数据的时辰有一个Tag,必要匹配标签。早年都必要CPU去做,造成CPU的负载很大,此刻Tag Matching可以跟网卡互换机做,这样对付小的信息可能大的信息都可以应用,可以极大的低落耽误和CPU的行使率。

低落CPU行使率对用户来说带来许多甜头,不管在计较照旧其他的应用场景里,都可以扩展到更多的核数。早年我们有这种履历,假如我们提交一个功课到64、128线程,机能都在增进,可是高出512线程之后机能就会降落了,其缘故起因是CPU更多时刻花在了数据通讯上面,而用在计较的时刻反而少了。优化之后CPU核操作率低落,计较时刻许多,现实上Tag Matching可以很好的晋升应用扩展手段,起到加快浸染。

其它跟着收集的局限越来越大,收集的靠得住性要求很是高,假如收集有题目的话也许必要提交功课从头做。今朝来说用CPR的技能来做,可是要耗损许多时刻,尤其功课很是大的环境下是不行以接管的,以是靠得住性就很是重要。假如一个端口、线断掉了,能不能不有任何影响,我们可以做到。

SHIELD是针对大局限收集内里靠得住性的办理方案,早年收集断了交给子网打点器,去从头筹划路径,这是软件方面来做。假如一千个节点,或许必要5秒钟,用户根基无法忍受,应用也会间断。可是假如我们通过SHIELD的成果硬件做收集收敛,不管是端口断了照旧线断了,硬件本身办理。这根基上可以节制在毫秒级之内,互换机自动找其它一个端口,数据从A传送到B。可以有当地规复的成果,也可以通过收集的方法把关照信息发给相邻的互换机,直到找到其它一条路,数据传过来就可以了。

这个成果完满是硬件实现,不必要软件支持,可以很是快的把收集规复,不影响到应用。

GPUDirect RDMA/Async,许多场景城市用到它,InfiniBand卡可以直接注册、挪用GPU的内存,通过收集来操纵数据直接拷贝,行使起来也很是利便,也很是成熟。

这是一个较量,假如你用到RDMA和不消RDMA的不同照旧很大的,从延时到带宽。

我们尚有智能网卡,可以通过RDMA将数据和节制卸载在网卡上做。

收集内计较对机能晋升来讲还长短常明明的,适才提到了SHARP是10倍的晋升。

Mellanox的网卡个中首要是基于整体办理方案,在AI框架里都获得了很好的应用,就纷歧一罗列了。也有许多客户用到我们的办理方案。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读