加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 电商 > 正文

北京大学计算机系教授博士生导师崔斌:以机器学系统Angel支持大数据所带来的挑战

发布时间:2017-09-30 23:22:23 所属栏目:电商 来源:财经网
导读:2017年9月27日,第二届大数据财富应用协同创新峰会于北京谨慎召开。在会上,北京大学计较机系传授博士生导师崔斌颁发了有关“支持大数据的漫衍式呆板进修体系Angel”的演讲。 2017年9月27日,第二届大数据财富应用协同创新峰会于北京谨慎召开。在会上,北

那其他的呆板进修平台,虽然也有许多。例如说像适才提到过的像08:40(英),原本是08:42这么一个呆板进修的体系,其后被苹果收购了,此刻也不开源了。08:48(英)还做过一个也是集成处事器08:51(英)一个漫衍式呆板进修体系。它是尝试室做的,其后由于它开始也创立创业公司,融资了,它此刻也不开源了。像微软他们开始做的一些体系,此刻首要也是支持深度进修较量多的。其它一个09:10(英)也是一个开源的体系,它凡是是针对梯度晋升类的,以是它针对性较量强。虽然09:19(英)这类体系,着实在市面表面许多大数据比赛,介入的步队许多人照旧用这个去做蛮多的,由于它内里做了一些决定数,它许多它支持,它支持的很好,速率很快,也很轻易用。最后一个09:32(英)最开始是酷狗它推出了,最后它逐步酿成了09:37(英),也支持,首要支持深度进修。

那我们跟体系或许做一些较量,着实可以发明,数据的那些体系它也许是较量得当于通用的大数据,不太得当呆板进修的这种算法。然后图计较的体系呢,它较量得当抽象,可以或许抽象成稀少图布局的这一类算法。然后深度进修体系它首要场景是用来计较一些麋集性的应用,好比说10:04(英)他们机能会较量好。

然后通过做这些呆板进修的算法我们做一些说明,我们可以发明,着实在漫衍式呆板进修这个进程中,它的一个焦点就是一个参数的共享。也就是说每次参数在差异的转达,差异的进程傍边,你怎么把这个工作做好,是晋升呆板进修服从的一个要害。以是我们在计划这个体系的进程中,首要就是我们把想提供一些很好的参数共享的处事。然后可以或许在这个基本上,再来整合多类的呆板进修体系。

好,接下来简朴先容一下,体系的先容。体系先容,我们体系的框架或许就是长这个样子,然后在客户端我们用来节制使命的运行。客户端也就是说用户你可以提交一个呆板进修的使命,给这个体系,用来启动和遏制使命,然后加载或存储模子。然后在这个11:01(英)结点,它就是作一些根基的节制。我来约定说我用什么样的数据、用什么样的参数,是不是要给它做一个分片,要做什么样的分啪,然后你去申请什么样的资源,对吧。尚有打点整个体系执行的一个进程。然后在右上角那几个点,就是一个参数,参数处事器,你可以把参数举办分片,存在差异的处事器结点上面。下面就是全部的事变结点,按照你当地的数据,做一个运算。这些详细的我这里就不讲了。

然后我们的体系不光单是本身做了许多的一些算法,同时它也可以或许支持此刻,融合此刻的体系,此刻已经做到把11:50(英)已经做上去了。我们不去详细修改11:53(英)内里的一些代码,只是在参数部门做一些修改,然后机能或许进步了一倍。这是我们提供的一些算法,像逻辑回归、12:03(英)做分类的、12:04(英)做主题模子的、矩阵解析、12:07(英)做决定数的等等这些我们都已经支持。

然后我们对这个体系也跟许多体系做了比拟,包罗跟12:16(英)然后测试了差异的算法,然后差异的集训情形,包罗我们本身尝试室较量小的集群;然后在腾讯的家产情形内里,又是几千台处事器这样的集群。然后差异的数据集,根基上这本机能都获得了几倍,可能十倍以上的一个晋升。这个各人有乐趣的,可以在网上去看。

然后这个体系也在腾讯的现实营业上面,做了许多的陈设跟应用。像视频保举、微信内里的保举、点击率预估、应用建模根基上机能都进步了一个量级以上。

最后简朴做一些总结,我们这个体系,是我的课题组和腾讯的数据平台部配合来连系开拓的。它同时思量的家产界的可用性跟我们学术的创新性。那此刻已经在getup上面已经开源了,你假如在这面搜素angel你就能搜到我们这个体系。

然后这个体系到今朝已经有2400多个Star。然后大概多人提供了,提出了许多的题目,像包罗13:30(英)有些干系体系的作者也来到上面提问。假如各人有乐趣的话,可以去看看,你认为你必要什么样的成果,也可以在上面提,我们看到的话,假若有必要,我们本身可以再加上去。你必要什么算法支持,我们就可以去加。

这个事变我们也在我们规模的相干顶级集会会议上,颁发过多篇的文章。然后今朝也是作为第三代计较平台,在腾讯上在行使。

好,最后简朴做一下总结。已往几年,我们跟腾讯相助,做一个漫衍式进修的体系,这是可以或许支持很是大局限的数据,很是高维。这样的计较使命都能做,接下来我们但愿操作现有的体系,通过参数处事器的一个处事的架构,可以或许把其他的包罗流处理赏罚的、包罗深度进修体系都整合进去。其它就是基于对开源的计划,我们对这个体系做进一步的开拓。可以或许(在)担保体系不变性的基本上,能更好的进步算法的机能。

好,这是我的一个根基的先容,感谢各人。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读