加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据平台常见开源器材

发布时间:2019-04-09 05:01:42 所属栏目:教程 来源:print小路虎
导读:大数据平台是对海量布局化、非布局化、半机构化数据举办收罗、存储、计较、统计、说明处理赏罚的一系列技能平台。大数据平台处理赏罚的数据量凡是是TB级,乃至是PB或EB级的数据,这是传统数据客栈器材无法处理赏罚完成的,其涉及的技能有漫衍式计较、高并发处理赏罚、高可

Spark是专为大局限数据处理赏罚而计划的快速通用的计较引擎,其提供了一个全面、同一的框架用于打点各类差异性子的数据集和数据源的大数据处理赏罚的需求,大数据开拓需把握Spark基本、SparkJob、Spark RDD陈设与资源分派、Spark Shuffle、Spark内存打点、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相干常识。

2、Storm

Storm 是自由的开源软件,一个漫衍式的、容错的及时计较体系,可以很是靠得住的处理赏罚复杂的数据流,用于处理赏罚Hadoop的批量数据。Storm支持很多种编程说话,而且有很多应用规模:及时说明、在线呆板进修、不断顿的计较、漫衍式RPC(远进程挪用协议,一种通过网路从Δ途计较机措施上哀求处事)、ETL等等。Storm的处理赏罚速率惊人:经测试,每个节点每秒钟可以处理赏罚100万个数据元组。

3、Mahout

Mahout目标是"为快速建设可扩展、高机能的呆板进修应用措施而打造一个情形",首要特点是为可伸缩的算法提供可扩展情形、面向Scala/Spark/H2O/Flink的新奇算法、Samsara(相同R的矢量数学情形),它还包罗了用于在MapReduce长举办数据发掘的浩瀚算法。

4、Pentaho

Pentaho是天下上最风行的开源商务智能软件,以事变流为焦点的、夸大面向办理方案而非器材组件的、基于Java平台的BI套件。包罗一个Web Server平台和几个器材软件:报表、说明、图表、数据集成、数据发掘等,可以说包罗了商务智能的方方面面。Pentaho的器材可以毗连到NoSQL数据库。大数据开拓需相识其行使要领。

5、HAWQ

HAWQ是Hadoop原生SQL查询引擎,为用户提供了一个完备的、切合尺度的SQL接口,数据存储在HDFS上,漫衍式运行,可以查询PB级以上的数据,查询机能高、低耽误、高可用,对付OLAP说明是个不错的选择。

六、查询应用类器材

1、Avro与Protobuf

Avro与Protobuf均是数据序列化体系,可以提供富厚的数据布局范例,异常得当做数据存储,还可举办差异说话之间彼此通讯的数据互换名目,进修大数据,需把握其详细用法。

2、Phoenix

Phoenix是用Java编写的基于JDBC API操纵HBase的开源SQL引擎,其具有动态列、散列加载、查询处事器、追踪、事宜、用户自界说函数、二级索引、定名空间映射、数据网络、时刻戳列、分页查询、跳跃查询、视图以及多租户的特征,大数据开拓需把握其道理和行使要领。

3、Kylin

Kylin是一个开源的漫衍式说明引擎,提供了基于Hadoop的超大型数据集(TB/PB级别)的SQL接口以及多维度的OLAP漫衍式联机说明。最初由eBay开拓并孝顺至开源社区。它能在亚秒内查询庞大的Hive表。

4、Zeppelin

Zeppelin是一个提供交互数据说明且基于Web的条记本。利便你做出可数据驱动的、可交互且可协作的精细文档,而且支持多种说话,包罗 Scala(行使 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

5、ElasticSearch

ElasticSearch是一个基于Lucene的搜刮处事器。它提供了一个漫衍式、支持多用户的全文搜刮引擎,基于RESTful Web接口。ElasticSearch是用Java开拓的,并作为Apache容许条款下的开放源码宣布,是当前风行的企业级搜刮引擎。计划用于云计较中,可以或许到达及时搜刮、不变、靠得住、快速、安装行使利便。

6、Solr

Solr基于Apache Lucene,是一种高度靠得住、高度扩展的企业搜刮平台, 是一款很是优越的全文搜刮引擎。知名用户包罗eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。大数据开拓需相识其根基道理和行使要领。

七、数据打点类器材

1、Azkaban

Azkaban是由linked开源的一个批量事变流使命调治器,它是由三个部门构成:Azkaban Web Server(打点处事器)、Azkaban Executor Server(执行打点器)和MySQL(相关数据库),可用于在一个事变流内以一个特定的次序运行一组事变和流程,可以操作Azkaban来完成大数据的使命调治,大数据开拓需把握Azkaban的相干设置及语礼貌则。

2、Mesos

Mesos 是由加州大学伯克利分校的AMPLab起首开拓的一款开源集群打点软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池,从物理或假造呆板中抽离了CPU、内存、存储以及其余计较资源,很轻易成立和有用运行具备容错性和弹性的漫衍式体系。

3、Sentry

Sentry 是一个开源的及时错误陈诉器材,支持 Web 前后端、移动应用以及游戏,支持 Python、OC、Java、Go、Node、Django、RoR 等主流编程说话和框架 ,还提供了 GitHub、Slack、Trello 等常见开拓器材的集成。行使Sentry对数据安详打点很有辅佐。

八、运维监控类器材

Flume是一款高可用、高靠得住、漫衍式的海量日记收罗、聚合和传输的体系,Flume支持在日记体系中定制种种数据发送方,用于网络数据;同时,Flume提供对数据举办简朴处理赏罚,并写到各类数据接管方(可定制)的手段。大数据开拓需把握其安装、设置以及相干行使要领。

【编辑保举】

  1. 大数据是大题目?组织必要为数据打点认真
  2. 大数据行业有几多种事变岗亭,各自的手艺需求是什么?
  3. 警惕大数据专业,一哄而上后的“一地鸡毛!”
  4. 运营商大数据:构建都市大脑的伶俐基本
  5. 大数据计较框架Spark之使命调治
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读