对Spark的那些【魔改】
发布时间:2018-08-17 00:38:59 所属栏目:教程 来源:祝威廉
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 媒介 这两年做 streamingpro 时,不行停止的必要对Spark做大量的加强。就犹如我之前吐槽的,Spark大量行使了new举办工具的建设,导致内里的实现根基没有步伐举办替代。 好比SparkEn
好比在PSExecutorBackend 实现如下代码:
接着你就可以在Spark里写如下的代码挪用了:
是不是很酷。 修改闭包的序列化方法 Spark的使命调治开销很是大。对付一个伟大的使命,营业逻辑代码执行时刻约莫是3-7ms,可是整个spark运行的开销或许是1.3s阁下。 颠末具体dig发明,sparkContext里RDD转化时,会对函数举办clean操纵,clean操纵的进程中,默认会搜查是不是能序列化(就是序列化一遍,没抛出非常就算可以序列化)。而序列化本钱相等高(默认行使的JavaSerializer而且对付函数和使命序列化,是不行变动的),单序次列化耗时就到达200ms阁下,在local模式下对其举办优化,可以镌汰600ms阁下的哀求时刻。 虽然,必要阐明的是,这个是针对local模式举办修改的。那详细怎么做的呢? (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |