Hadoop生态体系各组件与Yarn的兼容性怎样?
内存计较行使体系中不绝增进的内存占用快速执行迭代处理赏罚和交互式数据发掘等勾当。Apache Spark是一个风行的项目,是整套办理方案的要害部门,还包罗用于SQL操纵的Shark和用于图形处理赏罚的GraphX,Cloudera的CDH5刊行包罗在Yarn上运行的Spark。 2.3.8 DAG DAG执行引擎应承将数据处理赏罚逻辑建模为DAG(有向无环图),然后在大型数据集上并行执行。Apache Tez是DAG执行引擎的一个例子,它发生于必要提供更通用的MapReduce体系,该体系保存了MapReduce的并行性和吞吐量,同时支持MapReduce提供的特殊处理赏罚模子和优化。Tez的成果示例包罗不强加特定的数据模子,因此可以支持MapReduce的键/值模子以及Hive和Pig的基于元组模子。 Tez提供了很多优于MapReduce的上风,个中包罗消除MapReduce中多个功课之间存在的复写障碍——这是Hive和Pig等体系的首要机能瓶颈。Tez中的应用措施不必要排序,可镌汰MapReduce中的排序开销,从而发生更高效的管道。Tez还支持伟大操纵,好比Map-Map-Reduce或恣意操纵图,开拓职员可以或许更天然地表达他们的管道。Tez还可用于在执行时选择动态数据流,譬喻,按照流中数据巨细抉择将其存储在内存、HDFS或当地磁盘中。 2.4 结语 Hadoop整个生态自Hadoop 2.0版本呈现之后产生了庞大的改变,补充了Hadoop 1.0中的诸多不敷。在Hadoop 3.0及之后的屡次小版本迭代中,Yarn在时刻轴处事方面举办了进级,进步了时刻轴处事的可伸缩性和靠得住性,并通过引入流量和聚合来进步可用性。固然不再像Hadoop 1.0时期依赖MapReduce完成大量事变,Yarn已经与Hadoop 1.0时期呈现的浩瀚组件形成了精采的互补相助模式,这一点是毋庸置疑的。 【责任编辑:未丽燕 TEL:(010)68476606】点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |