加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

Hadoop已死?Hadoop万岁!

发布时间:2019-10-12 06:00:01 所属栏目:移动互联 来源:读芯术
导读:各类博客文章、杂志投稿中,Hadoop已死的说法死灰复燃,且又开始甚嚣尘上。连年来,Cloudera不再满意于Hadoop开源平台的身份,转而以企业数据公司的身份举办营销。现在,Cloudera已经进入企业数据云市场:殽杂云/多云处事,同一的安详系统和打点,多成果分
副问题[/!--empirenews.page--]

各类博客文章、杂志投稿中,“Hadoop已死”的说法死灰复燃,且又开始甚嚣尘上。连年来,Cloudera不再满意于Hadoop开源平台的身份,转而以企业数据公司的身份举办营销。现在,Cloudera已经进入企业数据云市场:殽杂云/多云处事,同一的安详系统和打点,多成果说明——都得益于Hadoop的开源处事。

话虽云云,在“Hadoop已死”这一负面论调的汪洋大海中飞行,照旧坚苦重重。

Hadoop已死?Hadoop万岁!

Hadoop是什么?

起首,从最根基的层面来讲——Hadoop最初是Apache 软件基金会的一个开源项目。其后,Map/Reduce 和 HDFS也别离被纳入这一项目中,很快就形成了一个普及而富厚的开源生态体系。现在,Cloudera的“Hadoop刊行版”(CDH/HDP/CDP)包括30多个开源项目,涵盖存储、计较平台(譬喻YARN,以及将来的Kubernetes)、批处理赏罚/及时计较框架(Spark、Flink等)、编排、SQL、NoSQL、ML、安详/打点等等。

以是,假如把Hadoop仅仅界说为MapReduce,那么,MapReduce简直正在衰落。但这并不故障Spark、Flink以及其他技能的鼓起——这使客户感想兴奋。这就是平台的美好和强盛之处——它可以进化,可以拥抱新的范式。

那么,假如Hadoop不是一个“项目”或“一组项目”,它又是什么呢?

“Hadoop”是一种哲学——是一场行为,是打点和说明数据的当代化系统布局的成长。

Hadoop已死?Hadoop万岁!

“Hadoop 哲学”

“Hadoop 哲学”始终遵循以下原则:

1. 转向解析软件仓库,将每一层(存储、计较平台、批处理赏罚/及时/SQL计较框架等)构建为可组合的乐高积木,而不是单一且不机动的软件栈(譬喻以垂直方法整合的具有定制存储名目、理会器、执行引擎等的数据库。

  • 尤其是,通过成立开放的元数据、安详和打点平台来和谐解析的仓库,有助于实现这一点。

2. 转向用于大型漫衍式体系的商品硬件,而不再是专有/单片硬件+软件仓库。

  • 在经济学理论中,商品被界说为一种物品或处事,具有充实的可更换性和普及的可得到性,这凡是会导致较小的利润率,使价值以外的身分(如品牌)变得并不那么重要。
  • 请参阅下面的接头,相识商品硬件在架构上怎样很好地转化为民众云。

3. 转向操作开放数据尺度和开源技能,而不是专有的、供给商节制的技能。这不只仅是开放尺度——尺度是实现,而不只仅是“类型”。

4. 转向机动多变的技能生态体系(MRv1 -> YARN -> K8s, MapReduce -> Spark/Flink等),而不是对全部的整体仓库一刀切,从而在每一层都能实现创新。

从某种层面来说,“Hadoop哲学”对付数据架构来说,就像闻名的Unix 哲学对付软件开拓一样,Eric Raymond在其著作《Unix编程艺术》中叙述了17条Unix法则,同样合用于该规模:

1. 模块原则:行使简捷的接口拼合简朴的部件。

• HDFS, YARN/K8s, Spark, Hive等既可以彼此组合,又彼此依靠。

3. 组合原则:计划时思量拼接组合。

• Impala,Hive, Spark等可用于端到端的办理方案。

4. 疏散原则:计策同机制疏散,接口同引擎疏散。

• HDFS既是文件体系接口,也是文件体系实现。这就是Spark通过Hadoop兼容文件体系“API”与S3对话的缘故起因。

6. 小气原则:除非确无它法,不要编写复杂的措施。

• 停止呈现“大”而“胖”的层,而是行使依靠于其他层的模块化层,譬喻Phoenix和HBase。

7. 透明性原则:计划要可见,以便检察和调试。

• 开源FTW!

16. 多样原则:决不信托所谓“不二窍门”的断言。

• Hadoop生态体系提供了多种器材,由于它们合用于差异的场景,而且具有差异的上风(可以通过Spark或Hive实现ETL,通过Hive/Tez或Impala实现SQL,通过LLAP或SparkSQL实现SQL)。

17. 扩展原则:计划着眼将来,将来总比预想来得快。

• 在2005-2006年时,很难猜测到HBase, Hive, Impala, Spark, Flink, Kafka等产物的呈现,但在已往13年多的时刻里,它们成为了高质产物和仓库的要害组件,这已经是很好的成就了。

Hadoop已死?Hadoop万岁!

云是什么呢?

现在,民众云(以及私有云)显然将成为企业陈设系统布局中不行或缺的一部门。

民众云本质上就是企业硬件基本办法(处事器、收集、数据中心等)的商品化。因此,它完全切合Hadoop哲学的原则——专注于商品硬件。另外,整个Hadoop生态系同一向都是为了“变形”和接收新影响而构建的——Tom White在2006年编写了第一个S3-Hadoop毗连器,Amazon在2009年引入了EMR处事。

与此对比,传统数据库供给商很难明析单个的、高度工程化、融合一体化的硬件/软件仓库,并使它们在民众云中举办“当地化”事变。

不幸的是,就整个行业来说,没能很好的辅佐市场(尤其是金融市场)领略Hadoop与传统技能在民众云方面的区别。这值得思索,且亟待改进。

亚马逊的 EMR、Azure的HDInsight,以及谷歌的Dataproc都是很好的例子,可以或许很好地声名“Hadoop”是如安在客户群的民众云中大局限敦促巨头代价和营业的。

Cloudera是什么?

Cloudera是一家数据公司。这家公司可以或许将数据转化为清楚且可操纵的概念,这首要是通过“Hadoop哲学”来实现的。我们成立了这个市场——为本身的已往感想自满,但并没有被蒙蔽。我们借力于技能海潮(民众云、Kubernetes等),这不只有益于客户,也切合公司的义务。

纵然再过一百年,企业依然会但愿将数据转化为概念。这是我们正在做的,并将一连做下去。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读