北京大学计算机系教授博士生导师崔斌:以机器学系统Angel支持大数据所带来的挑战
副问题[/!--empirenews.page--]
2017年9月27日,第二届大数据财富应用协同创新峰会于北京谨慎召开。在会上,北京大学计较机系传授博士生导师崔斌颁发了有关“支持大数据的漫衍式呆板进修体系Angel”的演讲。 2017年9月27日,第二届大数据财富应用协同创新峰会于北京谨慎召开。在会上,北京大学计较机系传授博士生导师崔斌颁发了有关“支持大数据的漫衍式呆板进修体系Angel”的演讲。 他暗示,由于大数据可能许多应用会带来一些新的挑衅。譬喻,数据实习的样本越来越大,已经没步伐再处理赏罚,然后数据的局限、数据模子的局限、维度也越来越高。在这样的环境下,必要一些漫衍式的呆板进修,来支持这样的一些应用。 其它,凡是在业界做保举的时辰,也会涉及到像决定数、神经收集、逻辑回归等等,这也是很常用的一些呆板学算法,以是必要支持好这一类的呆板学算法必要构建一个很大的呆板学体系。 他暗示,Angel体系首要是面向漫衍式的呆板进修使命,回收的就是呆板进修参数处事器的架构,内里可以或许支持数据并行、模子并行、差异的计较模式,并对许多算法举办了今朝很深度的优化。 以下为演讲全文: 每次分会都浮现啊。本日我给各人先容一下我们做的一个可以或许支持大局限数据做漫衍式呆板进修的这么一个体系。这是我的讲述提要。起首看一下配景,此刻各人都在说人工智能,呆板进修。呆板进修此刻说是成为发掘数据代价的首要的技能。着实各人也可以看到,或许五年,可能十年前阁下,要门生读研究生,许多人说,我对数字发掘感乐趣;此刻人来找的话,都说我对人工智能,呆板进修感乐趣,大部门都是这样。以是社会对这些词的变革都很轻易从这边可以或许浮现出来,那着实他们许多做的都是很临近的一些工作,就是发掘数据的一些代价。那呆板进修,此刻告白保举、文本发掘、视频图象、语音处理赏罚、金融风险、本性化医疗、智能都市都获得很普及的应用。 适才几位专家都已经讲过,可是此刻由于,由于大数据可能许多更多的应用,着实对这些技能带来一些新的挑衅。你例如说数据实习的样本此刻越来越大,已经没步伐再处理赏罚。然后数据的局限、数据模子的局限、维度也越来越高。在这样的环境下,我们必要一些漫衍式的呆板进修,可以或许来支持这样的一些应用。 那简朴用腾讯的一个案例,我们来做一下,作为一个研究的一个根基的一个先容。右边两张图是手机QQ跟微信上面的一个告白,像相同腾讯许多体系里,他会有一些告白位,这里的告白位必要按照你的一些用户的及时的一些举动它就做这么一个保举。以是在这个环境,它着实必要对大数据举办一个很精准的说明才气保举好这个告白。那它的量长短常大的,这是客岁的数据,相同QQ,微信这样的体系,它是包围的用户是8到10亿这样的一个局限,然后每个处所,告白位它可以保举给你的对象也许有几十万个,以是它要从这内里,去选一个你最有也许点击的对象。完了尚有伟大的相关链,以千亿计以上的,然后天天的保举哀求量很高。保举给你告白,各人着实你平常可以想象到,保举给你告白,着实你根基上不会去点击的。以是正常环境,它的点击率也许100次内里,你也许点击个一次、两次。以是对他来说,假如轻微保举的准一点,就会带来一个很大的一个代价。 在这个精准告白保举的时辰,起首你必要对用户、产物、告白,这些根基的特性你必要做一些处理赏罚。它会涉及到哪些特性啊?例如对用户来说,他会有一些你的根基的属性。例如说你对什么感乐趣,尚有你的用户的相关链是怎么样的,然后你的斲丧手段到底是怎么样的,他也许会针对你的平常的一些举动做一些prefa(音)。尚有一些告白的特性,例如嗣魅这个告白是谁发的,这个告白有什么创意,关健词是什么,公司、品牌、价值到底是怎么样的;尚有一些上下文的特性,例如你这个告白位到底巨细怎么样,可见度怎么样;它是什么样的情势,是视频的、照旧图片的,照旧笔墨的;然后是在那边,是在你的PPT上面、照旧条记本上面、照旧手机上面;可能你用什么APP,以是这些都是他要思量的身分。这还仅仅是一个根基的特性,可是我们在用的时辰,他也许把这个根基特性,再次做一些转换。例如说把也许一些特性,转化成01这样的特性,然后各类的特性做一下组合,那最终它会发生一个亿级以上这个特性量维度的一个稀少的特性。以是说我们所必要,做呆板进修,可能发掘这样一个模子,它长短常大的。 其它在业界,凡是在做保举的时辰,他会涉及到像决定数、神经收集、逻辑回归等等,这也是业界很常用的一些呆板学算法。以是必要支持好这一类的呆板学算法呢,我们必要构建一个很大的呆板学体系。 好,那我们这个体系,我从一四年或许开始跟腾讯一路相助,我们想做这么一个体系。然后一六年,开始在他们的出产情形中,也开始正常的开始行使了。然后本年呢,6月份我们又把这个体系举办的开源。各人都可以看到这个体系,也可以下载来本身用。首要是我们构建了一个家产级别,很可用的一个参照处事器这么一个架构的漫衍式呆板进修体系。然后内里有很富厚的呆板学算法,跟数据的一些计较库。我们也提供了很友爱的用户编程的接口。 最终我们做一些简朴的概述就是我们这个体系首要是面向漫衍式的呆板进修使命,然后回收的就是呆板进修参数处事器的架构。内里可以或许支持数据并行,然后模子并行,然后差异的计较模式。然后对许多算法举办了今朝很深度的优化,也颁发了几篇学术的文章。至少在颁发出来文章内里,我们的机能是最强的。 然后由于它体系必要可用,以是它具备一些精采的特征。也就是我们做漫衍式体系计划的一些须要的一些特征,像可扩展性、易用性、靠得住性、高效性、平台兼容这些我们都可以或许满意。 接下来先容一下相干的研究。此刻的漫衍式呆板进修体系,着实表面的市面上许多。尤其这两年,开源的体系越来越多。我们把这些,做一些简朴的归类,虽然这个归类不必然精确。第一类是我们把它分成数据流这个模式的体系,像haoop上面的一些呆板进修库,把它归到这一类;尚有一些是以图计较的这些体系,像06:14(英)等等;其它一种各人也许今朝更火的,各人更相识的更多一点的,也许就是深度进修体系,像谷歌的06:27(英),这些都是相同像亚马逊、Facebook、然后百度什么,开源的一些深度进修体系。 然后我们看一下,这些呆板进修体系,着实各人照旧都是有一些的题目。然后我们简朴看,呆板学算法,大部门它是不绝叠代的进程。你必要它不绝的叠代跟实习,最终也许你做了100人的计较,可能200人的计较,可能上千等等。做完之后,你会实习出一个好的模子,接下来你就可以用了。以是在这个进程中,着实许多体系是存在必然的瓶颈的。例如说spark(07:10)呆板进修,spark体系学,在云计较,可能大数据它用的许多。然后它最终,其后它也提供了07:19(英),在它的基本上开拓了一些支持呆板进修的一个库。然后这内里,它是会有必然的瓶颈。我们可以看到,当你的数据局限很大的时辰,你会把数据漫衍在差异的呆板上面。那在每一轮呆板举办实习的时辰,你必要把实习的模子参数,发给各个计较的结点,各个计较的结点按照你当地的数据,计较完往后,最终你做一个汇总。汇总到一个deliver上面。这个汇总完往后呢,然后你又把这次更新好的传统模子,再发给各个数据结点,各个数据结点计较完往后,再汇总到一个deliver然后再发。就这么一个进程,凡是是大部门呆板进修这么来做的。那我们来看spark这样的模子显然可以看到,这个08:07(英)在每次参数汇总的时辰,它显然也许会成为一个瓶颈,以是它难以支撑很大局限的模子。其它,有一些处理赏罚的要领,就是你想你模子太大了,那我把它做一个降位的处理赏罚,原本十亿个维度的模子,我把它降为一万维,那也可以。可是呢,凡是它会引起一些数据的丢失,然后它精确性,也许就不那么高了。好,那这是一个08:34(英)呆板学。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |