1.? 根基状况
Tez是Hortonworks开拓的。
董西成的说明 http://dongxicheng.org/mapreduce-nextgen/apache-tez/
http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/
tez运行在Yarn上的,DAG事变流,底层计划,对Map和Reduce进一步拆分。Map拆成Input,Processor,Sort,Merger,Output,Reduce拆分成Input,Shuffle,Processor和Output。拆分后的单位可以恣意组合,组装成大的DAG功课。方针,替代机能较为低下的Hive和Pig。
Tez被Hortonworks用户Hive引擎优化,发生了一本机能很强的新项目Stinger,颠末测试,机能晋升了100倍。
http://zh.hortonworks.com/blog/100x-faster-hive/
(Tez+hive)和(Impala,Dremel和Drill)都是为了办理hive/pig的低机能题目。前者行使MapReduce框架对GAG裁剪优化,后者丢弃MapReduce,直接从DataNode取数据,传统数据库的方法。
Tez和Oozie的不同:Tez是方向底层的,Oozie方向顶层,它是对MR,Hive,Pig等举办DAG功课计划,将各类器材实现的成果组合在一路。
2. 更多细节
http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/
(1) 富厚的数据流(dataflow,NOT Streaming!)编程接口;
(2) 扩展性精采的“Input-Processor-Output”运行模子;
(3) 简化数据陈设(充实操作了YARN框架,Tez自己仅是一个客户端编程库,无需事先陈设相干处事)
(4) 机能优于MapReduce
(5)? 优化的资源打点(直接运行在资源打点体系YARN之上)
(6) 动态天生物理数据流(dataflow)
个中,3很是有吸引力。
(1)Tez官方网站:http://tez.incubator.apache.org/
(2)Tez官方文档:https://issues.apache.org/jira/secure/attachment/12588887/Tez%20Design%20v1.1.pdf
(3)Tez SVN:https://issues.apache.org/jira/browse/TEZ
3. 评估:
3.1 优先行使优化后的Hive,也就是Stinger。
3.2 次之行使impala,drill。首要思量到扩展性和迁徙性。
4. Oozie
官网 http://oozie.apache.org/
5. 为什么有tez?
我以为是这样的:CDH有一个高效的Impala可以更换Hive,那么HDP也就必需有一本机能对等的更换Hive的器材,不然在竞争上就有劣势,于是Hortonworks就发现了tez。
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|