加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 移动互联 > 正文

大数据资料之常见的Hadoop十大应用误解学习

发布时间:2019-07-11 03:49:11 所属栏目:移动互联 来源:95后码农
导读:大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。 Hadoop是一个由Apache基金会所开拓的漫衍式体系基本架构。用户可以在不相识漫衍式底层细节的环境下,开拓漫衍式措施。充实操作集群的威力举办高速运算和存储。以下是常见的Hadoop十大应用误解
副问题[/!--empirenews.page--]

大数据之常见的Hadoop十大应用误解常见的Hadoop十大应用误解。

大数据资料之常见的Hadoop十大应用误解进修

Hadoop是一个由Apache基金会所开拓的漫衍式体系基本架构。用户可以在不相识漫衍式底层细节的环境下,开拓漫衍式措施。充实操作集群的威力举办高速运算和存储。以下是常见的Hadoop十大应用误解和正解。

1. (误解) Hadoop什么都可以做

(正解) 当一个新技能出来时,我们城市去思索它在各个差异财富的应用,而对付平台的新技能来说,我们思索之后常会呈现这样的结论 “这个仿佛什么都能做”, 然而,更深入的去想,你就会发明“仿佛什么都必要重头做”。 对付Hadoop,我常喜好举Database来当例子。 三十年前数据库(Database)刚出来时,上面并没有什么现成的应用方案(Application),以是厂商在贩卖的进程中常必要花许多的时刻去汇报客户说,假如本日你有了这个数据库,你就可以做什么什么的应用,而看起来简直仿佛数据库什么应用都可以做,由于事实大部门的应用城市必要一个数据库。只是三十年前全部的应用都得重头打造,我们本日习觉得常的ERP、CRM等应用体系,其时并不存在的,那都是其后的事了。本日的Hadoop,正好有点像昔时database 刚出来的时辰,事实本日全部的应用或多或少城市开始行止理赏罚半布局、非布局化数据,而这些对象简直都是Hadoop善于的,以是平台的合用性着实题目不大,重点照旧在应用要由谁来搭建。

2. (误解) Hadoop无法饰演HPC (High Performance Computing) or Grid Computing的脚色

(正解) 因为Hadoop自己是由并行运算架构(MapReduce)与漫衍式文件体系(HDFS)所构成,以是我们也看到许多研究机构或教诲单元,开始实行把部门本来执行在HPC 或Grid上面的使命,部门移植到Hadoop集群上面,操作Hadoop分身高速运算与海量储存的特征,更浅显且更有服从地来执行事变。今朝海外高能物理、生命科学、医学等规模,都已经有这样的应用案例,操作Hadoop集群与现有的HPC/Grid 搭配、协同运作,来满意差异特征的运算使命。

3. (误解) Hadoop只能做资料说明/发掘(Data Mining/Analyst)

(正解) Hadoop出格得当来数据说明与发掘的应用是毫无疑问的,但数据说明与发掘是难度与深度都较高的一个应用,所必要的时刻的蕴蓄也较量长,也因此让一样平常企业对付导入Hadoop视为畏途,乃至心怀惊骇。然而,从Etu知意图团队这一两年来向导客户的履素来看,我们发明着实更多的应用,大多都在数据处理赏罚(Data Processing)这个部门,可能更准确地来说,Hadoop这个平台,出格得当数据预处理赏罚(Data pre-Processing)这种应用场景。无论是数据客栈的负载分流(DW Offload)、数据的汇总(Data Aggregation)、甚或是我们运用协同过滤算法(Collaborative Filtering)针对线下线上零售业所做的精准保举应用(Recommendation),广义上来看,都可以说是属于Data Processing的一环,事实,Big Data的光降,我们看data、运用data的角度与方法都必必要有所改变。

  • Big Data夸大的不是对因果相关的渴求,取而代之的是存眷于data之间的相干相关。
  • 也就是说,重点在于要知道“是什么”,反而未必需要知道“为什么”。
  • 以是, 它要求的是全部data的处理赏罚,而不可是随机样本的说明。
  • 最后我们每每会发明,处理赏罚Big Data的简朴算法所获得的来自于data泛起的究竟,每每比说明small data的伟大算法所获得的来自data背后的缘故起因,对企业带来的效益更大。

我凶猛保举各人去看Big Data: A Revolution That Will Transform How We Live, Work, and Think这本书,内里把我们面临Big Data该有的概念与观点,做了很是清晰的告诉,有简中的的翻译本,繁中的仿佛还没看到。

4. (误解) Hadoop就是BI (Business Intelligence)贸易智能

(正解) 跟前面一样,这也是大大都人最轻易误解的处所,由于Hadoop出格得当来做数据说明,以是就很直觉地把它想成 “那就是BI嘛”。 会有这种误解,首要来自于对数据运用的整体架构的不清晰。传统BI是属于数据揭示层(Data Presentation),其数据的载体(Data Store)是数据库或数据客栈。比拟来看,Hadoop就是专注在半布局化、非布局化数据的数据载体,跟BI是差异条理的观念。虽然,Hadoop除了 Data Store外,又出格具备运算的特征,也因此出格轻易带来这种见识上的夹杂。至于半布局、非布局化数据的数据揭示层部门,今朝自己并不在Hadoop的生态系统内,而是由其他现有或新创的公司来弥补这块空白,以是,逐渐地我们会看到越来越多现有的BI tool,开始夸大其自身与Hadoop的接洽性与兼容性,同时,一些新创公司,也成长出完全差异于现有BI Tool的基于Big Data的数据揭示层。

5. (误解) Hadoop就是ETL (Extract, Transform & Load)

(正解) ETL着实有两种意涵,它自己是一个观念,也同时是一个产物种别(Product Category)的总称。以是当我们听到“某某公司是做ETL产物的”的这种对话时,个中的 ETL,与DB、Application Server等名词是沟通的,都是指向某种类此外IT产物。然而,假如就观念性上来看,ETL指的着实是数据运用的生命周期中的个中一个进程, 跟我前面提到的数据预处理赏罚(Data pre-Processing)是同样一个观念,举凡数据洗濯(Data Cleansing)、数据关联、数据汇总等,都包括在这个领域内。以是当我们说Hadoop出格得当拿来做ETL时,在观念上,它是正确的,同时也能很清晰大白地定位出Hadoop在企业资料运用中所饰演的脚色。但Hadoop终究不是一个ETL的产物,反倒是现有的ETL产物,也开始跟BI一样,去成长它在Hadoop上的可用性、接洽性与兼容性。Etu团队之前在帮客户导入Hadoop做数据处理赏罚时,经常会用script说话来实现一些应用场景,最近一段时刻以来,我们的技能参谋也开始运用3rd-party 的ETL tool来实作这一块,对企业客户来说,这是他们较认识的器材,也低落了他们进入Hadoop的门槛。

6. (误解) Hadoop跟传统storage没什么不同, 都出格得当来做资料的备份(Data Archive)

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读