加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

深度:Hadoop对Spark五大维度正面比拼报告!

发布时间:2018-07-06 00:35:45 所属栏目:大数据 来源:网络大数据
导读:每年,市场上城市呈细髟耘囝异的数据打点局限、范例与速率示意的漫衍式体系。在这些体系中,Spark和hadoop是得到最大存眷的两个。然而该怎么判定哪一款得当你? 假如想批处理赏罚流量数据,并将其导入HDFS或行使Spark Streaming是否公道?假如想要举办呆板进修和

Spark的容错首要是通过RDD操纵来实现的。最初,静态数据存储在HDFS中,通过Hadoop的系统布局举办容错。跟着RDD的成立,谱系也是云云,它记着了数据集是怎样构建的,而且因为它是不行变的,假如必要可以从新开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制,假如执行器和驱动措施之间的节点或通讯失败,凡是也许会破坏数据。

Spark和Hadoop都可以支持Kerberos身份验证,但Hadoop对HDFS具有越发细化的安详节制。 Apache Sentry是一个用于执行细粒度元数据会见的体系,是另一个专门用于HDFS级别安详性的项目。

Spark的安详模子今朝很少,但应承通过共享密钥举办身份验证。

5. 呆板进修

Hadoop行使Mahout来处理赏罚数据。 Mahout包罗集群,分类和基于批处理赏罚的协作过滤,全部这些都在MapReduce之上运行。今朝正在慢慢推出支持Scala支持的DSL说话Samsara,应承用户举办内存和代数操纵,并应承用户编写本身的算法。

Spark有一个呆板进修库MLLib,用于内存迭代呆板进修应用措施。它可用于Java,Scala,Python或R,包罗分类和回归,以及通过超参数调解构建呆板进修管道的手段。

总结

那么它是Hadoop照旧Spark?这些体系是今朝市场上处理赏罚数据最重要的两个漫衍式体系。 Hadoop首要用于行使MapReduce典型的大局限磁盘操纵,而Spark则是一种更机动,但本钱更高的内存处理赏罚架构。两者都是Apache的顶级项目,常常一路行使,而且有相似之处,但在抉择行使它们时,相识每个项目标特性长短常重要的。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读