Hadoop此刻怎么样了?
之前我们提到大数据的时辰就会提到Hadoop,Hadoop是大数据的基本框架,是大数据技能的代表。提到HDFS、MapReduce、Yarn,提到HBase、Hive、TEZ等Hadoop生态圈中的一个又一个开源组件。可是最近仿佛有点纷歧样了。 Hadoop三巨头 曾经的三巨头之一MapR向加州就业成长局提交文件,称假如找不到新的投资人,公司将裁人 122 人,并封锁位于硅谷的总部公司。这曾经然则估值10亿美元的Hadoop刊行版厂商啊,说跪就要跪了,而其它两巨头则是抱团取温顺,虽然这也不能完全声名Hadoop面对着一些题目。 2003年,依据Google颁发的三篇论文将Google的三驾马车从幕后搬到台前,奠基了后头十几年大数据的框架基本,形成了Hadoop生态圈的第一圈:漫衍式文件体系HDFS、漫衍式计较MapReduce、HBase NoSQL数据库(BigTable)和Yarn资源调治处事。一时之间方兴未艾,Hadoop生态发杀青长,Hortonworks、Cloudera 和 MapR一向在举办技能更新,开拓了一款又一款的基于Hadoop的器材。Hive的呈实际现了类SQL的支持,敏捷霸占了市场,后头基于SQL On Hadoop的组件更是层出不穷,Presto、Impala、Drill、Spark、Tez、Sqoop等等。Hadoop的生态圈越来越大,后头鼓起的新型计较框架和查询框架都环绕着Hadoop举办兼容,如Presto兼容Hive、Spark兼容HDFS存储和Yarn调治,统统看起来都是柔美的样子。 可是,从之前的Hadoop是大数据的基本框架到此刻Hadoop已经不能完全代表大数据了,Hadoop只是大数据技能规模的一个分支,而其他分支正在全力的演化为新的大数据实现方法。 大数据技能栈 大数据的技能栈我们凡是以为分为:资源调治层、漫衍式存储层、同一计较引擎层和同一接口层。 资源调治层:为了更好的对资源举办打点,办理上层应用的题目,此刻呈现了许多新的技能,许多企业都开始操作容器编排技能来取代YARN举办资源打点。虽然,Hadoop3之后Yarn也支持调治Docker应用了,算是Hadoop的一个改造。 漫衍式存储层:诚然HDFS是一个较为通用的存储处事,可是它原生的痛点就是不支持小文件存储,并且因为存储特征无法实现高机能的随机读写。 同一计较引擎:此刻MapReduce已经根基要被Spark和Flink所代替了,虽然Spark和Flink也算Hadoop生态中的一员,可是不要忘了,当Spark底层存储基于S3,调治基于K8S就可以完全抛开Hadoop了。事实谁还不是一个通用性的产物呢~ 同一接口层:通过同一的SQL接口层来低落大数据技能的行使门槛是我们的共鸣,今朝SQL on Hadoop技能也在发杀青长,SQL的支持度也在不绝的晋升,可是假如不依靠HDFS存储可就不见得SQL On Hadoop了。 上面说了这么多也不是在唱衰Hadoop,只是Hadoop今朝看来确实仿佛碰着了瓶颈。可是Hadoop3也增进了大量的成果,Yarn支持Docker容器、支持TensorFlow的GPU调治,提供了对S3的支持。Hive的LLAP(低延时说明处理赏罚)、联邦数据查询和完全支持ACID事宜也让Hive朝着更好的偏向成长。不得不说此刻全部的技能都在朝着云原生的偏向提高,假如不能乐成上云,也许终将被忘记。 云原生下开源的YuniKorn 而Hortonworks和Cloudera的归并也许是Hadoop成长的又一转折点,事实归并的计谋方针是专注于云。就在昨天,19年7月17日,Cloudera 官方博客发文开源了一个幕后事变好久的大数据存储和通用计较平台交错的新项目——YuniKorn。据先容,YuniKorn 是一种轻量级的通用资源调治措施,合用于容器编排体系,认真为大数据事变负载分派 / 打点资源,包罗批处理赏罚功课和常驻运行的处事。有乐趣的可以存眷一下Github地点:https://github.com/cloudera/yunikorn-core YuniKorn[‘ju:nikɔ:n] 是一个虚拟的词,“Y”代表 YARN,“K”代表 K8s,“Uni”代表同一,其发音与“Unicorn”沟通。建设它是为了最初支持这两个体系,但最终目标是建设一个可以支持任何容器和谐器体系的同一调治措施。一方面在大局限,多租户情形中有用地实现各类事变负载的细粒度资源共享,另一方面可以动态地建设云原生情形。YuniKorn 为殽杂事变负载提供同一的跨平台调治体验,包罗无状态批处理赏罚事变负载和状态处事,支持但不限于 YARN 和 Kubernetes。 YuniKorn 的首要模块 ![]() YuniKorn -scheduler-interface:调治措施接口是资源打点平台(如 YARN / K8s)将通过诸如 GRPC / 编程说话绑定之类的 API 与之攀谈的抽象层。 YuniKorn Core:YuniKorn Core 封装了全部调治算法,它从资源打点平台(如 YARN / K8s)下面网络资源,并认真资源分派哀求。它抉择每个哀求的最佳陈设位置,然后将相应分派发送到资源打点平台。调治措施焦点与基层平台无关,全部通讯都通过调治措施接口。 Scheduler Shim Layers:调治措施 Shim 在主机体系内运行(如 YARN / K8s),它认真通过调治措施接口转换主机体系资源和资源哀求,并将它们发送到调治措施焦点。在做出调治措施决定时,它认真现实的 pod / 容器绑定。 Scheduler UI:调治措施 UI 为已托管的节点,计较资源,应用措施和行列提供简朴视图。 YuniKorn 的一些特征
我们不止一次传闻过XX不是银弹,没有一种技能可以办理全部的题目,技能一向在成长。哪怕是在Hadoop生态圈内,跟着及时数据的处理赏罚手段进步,构建及时数仓,打造及时数据处理赏罚与计较平台已经比离线使命模式要吃香了。上云总回来说是一个大的趋势,对付巨细公司都是云云,事实可以节减很是多的本钱。可是也不解除云+当地的殽杂模式,事实数据此刻然则金子~。不管怎么说,一向受Hortonworks和Cloudera的影响敦促着Hadoop相干组件的前进,基于他们的技能栈学到了许多招式,但愿他们可以更好的走下去。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |