加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据生态系统入门必看:Pig、Hive、Hadoop、Storm等白话诠释

发布时间:2019-04-20 02:24:34 所属栏目:教程 来源:Xiaoyu Ma
导读:题目导读 大数据该怎样存储到硬盘上? 存储数据后,该思量如那里理赏罚数据 什么是Map?什么是Reduce? Hive、Pig、Storm技能是怎样发生的? 大数据自己是个很宽泛的观念,Hadoop生态圈(可能泛生态圈)根基上都是为了处理赏罚高出单机标准的数据处理赏罚而降生的。你可以把

假如我是一个相同微博的公司,我但愿表现不是24小时热博,我想看一个不绝变革的热播榜,更新耽误在一分钟之内,上面的本领都将无法胜任。于是又一种计较模子被开拓出来,这就是Streaming(流)计较。Storm是最风行的流计较平台。流计较的思绪是,假如要到达更及时的更新,我何不在数据流进来的时辰就处理赏罚了?好比照旧词频统计的例子,我的数据流是一个一个的词,我就让他们一边流过我就一边开始统计了。流计较很牛逼,根基无耽误,可是它的坏处是,不机动,你想要统计的对象必需预先知道,事实数据流过就没了,你没算的对象就无法补算了。因此它是个很好的对象,可是无法更换上面数据客栈和批处理赏罚体系。

尚有一个有些独立的模块是KV Store,好比Cassandra,HBase,MongoDB以及许多许多许多许多其他的(多到无法想象)。以是KV Store就是说,我有一堆键值,我能很快速滴获取与这个Key绑定的数据。好比我用身份证号,能取到你的身份数据。这个举措用MapReduce也能完成,可是很也许要扫描整个数据集。而KV Store专用来处理赏罚这个操纵,全部存和取都专门为此优化了。从几个P的数据中查找一个身份证号,大概只要零点几秒。这让大数据公司的一些专门操纵被大大优化了。好比我网页上有个按照订单号查找订单内容的页面,而整个网站的订单数目无法单机数据库存储,我就会思量用KV Store来存。KV Store的理念是,根基无法处理赏罚伟大的计较,大多没法JOIN,大概没法聚合,没有强同等性担保(差异数据漫衍在差异呆板上,你每次读取大概会读到差异的功效,也无法处理赏罚相同银行转账那样的强同等性要求的操纵)。可是丫就是快。极快。

每个差异的KV Store计划都有差异弃取,有些更快,有些容量更高,有些可以支持更伟大的操纵。必有一款得当你。

除此之外,尚有一些更特制的体系/组件,好比Mahout是漫衍式呆板进修库,Protobuf是数据互换的编码和库,ZooKeeper是高同等性的漫衍存取协同体系,等等。

有了这么多参差不齐的器材,都在统一个集群上运转,各人必要相互尊重有序事变。以是其它一个重要组件是,调治体系。此刻最风行的是Yarn。你可以把他看作中央打点,比如你妈在厨房监工,哎,你妹妹切菜切完了,你可以把刀拿去杀鸡了。只要各人都听从你妈分派,那各人都能舒畅滴烧菜。

你可以以为,大数据生态圈就是一个厨房器材生态圈。为了做差异的菜,中国菜,日本菜,法国菜,你必要各类差异的器材。并且客人的需求正在伟大化,你的厨具不绝被发现,也没有一个万用的厨具可以处理赏罚全部环境,因此它会变的越来越伟大。

【编辑保举】

  1. Hadoop巨头完成归并,成为环球第二大开源软件公司
  2. 大数据的技能生态?Hadoop、Hive、Spark之间是什么相关?
  3. Hadoop大数据通用处理赏罚平台
  4. 从HDFS和MapReduce两方面相识Hadoop
  5. 分享一些轻易被忽视的Hadoop口试题及谜底
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读