Hadoop系统布局中的处事脚色先容
9月15日技能沙龙 | 与东华软件、AWS、京东金融、饿了么四位大咖切磋精准运维!
翻了一下最近一段时刻写的分享,DKHadoop刊行版本下载、安装、运行情形陈设等相干内容险些都已经写了一遍了。固然有的处所也许写的不是很具体,小我私人领略程度有限还请留情吧!我记得在写DKHadoop运行情形陈设的时辰,漏掉了hadoop处事脚色的内容,本篇专程补上这部门内容吧,否则总认为不惬意。 要在集群中运行DKHadoop处事,必要指定集群中的一个或多个节点执行该处事的特定成果,脚色分派是必需的,没有脚色集群将无法正常事变,在分派脚色前,必要相识这些脚色的寄义。 Hadoop处事脚色: 1. zookeeper脚色:ZooKeeper处事是指包括一个或多个节点的集群提供处事框架用于集群打点。对付集群,Zookeeper处事提供的成果包罗维护设置信息、定名、提供HyperBase的漫衍式同步,保举在 ZooKeeper集群中至少有3个节点。 2. JDK脚色:JDK是 Java 说话的软件开拓器材包, JDK是整个Java开拓的焦点,它包括了Java的运行情形,Java器材和Java基本的类库。 3. Apache-Flume脚色:Flume是Cloudera提供的一个高可用的,高靠得住的,漫衍式的海量日记收罗、聚合和传输的体系,Flume支持在日记体系中定制种种数据发送方,用于网络数据;同时,Flume提供对数据举办简朴处理赏罚,并写到各类数据吸取方(可定制)的手段。 4. Apache-Hive脚色:Hive是基于Hadoop的一个数据客栈器材,可以将布局化的数据文件映射为一张数据库表,并提供简朴的SQL查询成果,可以将SQL语句转换为MapReduce使命举办运行。 5. Apache-Storm脚色:Storm是内存级计较,数据直接通过收集导入内存。读写内存比读写磁盘速率快n个数目级。当计较模子较量得当流式时,Storm的流式处理赏罚,省去了批处理赏罚的网络数据的时刻. 6. Elasticsearch脚色:Elasticsearch是用Java开拓的,并作为Apache容许条款下的开放源码宣布,是当前风行的企业级搜刮引擎。计划用于云计较中,可以或许到达及时搜刮、不变、靠得住、快速,安装行使利便。 7. NameNode脚色:HDFS体系中的节点用于维护文件体系中全部文件的目次布局并跟踪文件数据存储于哪些数据节点。当客户端必要从HDFS 文件体系中得到文件时,它通过和NameNode通信来知道客户端哪个数据节点上有客户端必要的文件。 一个Hadoop集群中只能有一个NameNode。NameNode不能被赋予其他脚色。 8. DataNode脚色:在HDFS中,DataNode是用来存储数据块的节点。 9. Secondary NameNode 脚色:为NameNode上的数据建设周期性搜查点的节点。节点将周期性地下载当前NameNode镜像和日记文件,将日记和镜像文件归并为一个新的镜像文件然后上传到NameNode。 被分派了NameNode脚色的呆板不该再被分派Secondary NameNode 脚色。 10. Standby Namenode脚色:Standby模式的NameNode元数据(Namespcae information 和 Block 都是和Active NameNode中的元数据是同步的,一但切换成Active模式,顿时就可以提供NameNode处事。 11. JournalNode脚色:Standby NameName和Active NameNode通过JournalNode通讯,保持信息同步。 12. HBase脚色:HBase是一个漫衍式的、面向列的开源数据库。HBase在Hadoop之上提供了相同于BigTable的手段。HBase是Apache的Hadoop项目标子项目。HBase差异于一样平常的相关数据库,它是一个得当于非布局化数据存储的数据库。另一个差异的是HBase基于列的而不是基于行的模式。 13. Kafka脚色:Kafka是一种高吞吐量的漫衍式宣布订阅动静体系,它可以处理赏罚斲丧者局限的网站中的全部举措流数据。 这种举措(网页赏识,搜刮和其他用户的动作)是在当代收集上的很多社会成果的一个要害身分。 这些数据凡是是因为吞吐量的要求而通过处理赏罚日记和日记聚合来办理。 对付像Hadoop的一样的日记数据和离线说明体系,但又要求及时处理赏罚的限定,这是一个可行的办理方案。Kafka的目标是通过Hadoop的并行加载机制来同一线上和离线的动静处理赏罚,也是为了通过集群来提供及时的斲丧。 14. Redis脚色:Redis是一个开源的行使C说话编写、支持收集、可基于内存亦可耐久化的日记型、Key-Value数据库,并提供多种说话的API。 15. Scala脚色:Scala是一门多范式的编程说话,一种相同Java的编程说话,计划初志是实现可伸缩的说话、并集成面向工具编程和函数式编程的各类特征。 16. Sqoop脚色:Sqoop是一个用来将Hadoop和相关型数据库中的数据彼此转移的器材,可以将一个相关型数据库(譬喻 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导入到相关型数据库中。 17. Impala脚色:Impala是Cloudera公司主导开拓的新型查询体系,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive体系固然也提供了SQL语义,但因为Hive底层执行行使的是MapReduce引擎,如故是一个批处理赏罚进程,难以满意查询的交互性。对比之下,Impala的最大特点也是最大卖点就是它的快速。 18. Crawler脚色:Crawler是大快DKHadoop专有组件,爬虫体系,爬取动态静态数据。 19. Spark脚色:Spark是一种与Hadoop相似的开源集群计较情形,可是两者之间还存在一些差异之处,这些有效的差异之处使 Spark 在某些事变负载方面示意得越发良好,换句话说,Spark 启用了内存漫衍数据集,除了可以或许提供交互式查询外,它还可以优化迭代事变负载。Spark 是在Scala说话中实现的,它将Scala用作其应用措施框架。与Hadoop差异,Spark和Scala可以或许细麋集成,个中的Scala可以像操纵当地荟萃工具一样轻松地操纵漫衍式数据集。 20. HUE脚色:HUE是一组可与您的Hadoop jiqun 交互的收集应用措施。HUE应用能让您赏识HDFS和事变,打点Hive metastore,运行Hive,赏识HBase Sqoop出口数据,提交MapReduce措施,构建自界说的搜刮引擎与Solr一路调治一再性的事变流。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |