加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据干货:Hadoop 口试中 7个必问题目及谜底

发布时间:2019-10-31 09:09:48 所属栏目:教程 来源:大数据三十四号
导读:1.什么是Hadoop? Hadoop是一个开源软件框架,用于存储大量数据,并发处理赏罚/查询在具有多个商用硬件(即低本钱硬件)节点的集群上的那些数据。总之,Hadoop包罗以下内容: HDFS(Hadoop Distributed File System,Hadoop漫衍式文件体系):HDFS应承你以一种漫衍
副问题[/!--empirenews.page--]

1.什么是Hadoop?

Hadoop是一个开源软件框架,用于存储大量数据,并发处理赏罚/查询在具有多个商用硬件(即低本钱硬件)节点的集群上的那些数据。总之,Hadoop包罗以下内容:

HDFS(Hadoop Distributed File System,Hadoop漫衍式文件体系):HDFS应承你以一种漫衍式和冗余的方法存储大量数据。譬喻,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在Hadoop集群中的8个差异节点上。每个破碎可以复制3次,以实现容错,以便假如1个节点妨碍的话,也有备份。HDFS合用于次序的“一次写入、多次读取”的范例会见。

大数据干货:Hadoop 口试中 7个必问题目及谜底

MapReduce:一个计较框架。它以漫衍式和并行的方法处理赏罚大量的数据。当你对全部年数> 18的用户在上述1 GB文件上执行查询时,将会有“8个映射”函数并行运行,以在其128 MB拆分文件中提取年数> 18的用户,然后“reduce”函数将运行以将全部单独的输出组合成单个最终功效。

YARN(Yet Another Resource Nagotiator,又一资源定位器):用于功课调治和集群资源打点的框架。

Hadoop生态体系,拥有15多种框架和器材,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即调动,富厚,聚合等),并查询来自HDFS的数据用于贸易智能和说明。某些器材(如Pig和Hive)是MapReduce上的抽象层,而Spark和Impala等其他器材则是来自MapReduce的改造架构/计划,用于明显进步的耽误以支持近及时(即NRT)和及时处理赏罚。

大数据干货:Hadoop 口试中 7个必问题目及谜底

2.为什么组织从传统的数据客栈器材转移到基于Hadoop生态体系的智能数据中心?

Hadoop组织正在从以下几个方面进步本身的手段:

现稀有据基本办法:

  • 首要行使存储在高端和昂贵硬件中的“structured data,布局化数据”
  • 首要处理赏罚为ETL批处理赏罚功课,用于将数据提取到RDBMS和数据客栈体系中举办数据发掘,说明和陈诉,以举办要害营业决定。
  • 首要处理赏罚以千兆字节到兆字节为单元的数据量

基于Hadoop的更智能的数据基本办法,个中

  • 布局化(譬喻RDBMS),非布局化(譬喻images,PDF,docs )和半布局化(譬喻logs,XMLs)的数据可以以可扩展和容错的方法存储在较自制的商品呆板中。
  • 可以通过批处理赏罚功课和近及时(即,NRT,200毫秒至2秒)流(譬喻Flume和Kafka)来摄取数据。
  • 数据可以行使诸如Spark和Impala之类的器材以低耽误(即低于100毫秒)的手段查询。
  • 可以存储以兆兆字节到千兆字节为单元的较大数据量。

这使得组织可以或许行使更强盛的器材来做出更好的营业决定,这些更强盛的器材用于获取数据,转移存储的数据(譬喻聚合,富厚,调动等),以及行使低耽误的陈诉成果和贸易智能。

3.更智能&更大的数据中心架构与传统的数据客栈架构有何差异?

传统的企业数据客栈架构

大数据干货:Hadoop 口试中 7个必问题目及谜底

基于Hadoop的数据中心架构

大数据干货:Hadoop 口试中 7个必问题目及谜底

4.基于Hadoop的数据中心的甜头是什么?

跟着数据量和伟大性的增进,进步了整体SLA(即处事程度协议)。譬喻,“Shared Nothing”架构,并行处理赏罚,内存麋集型处理赏罚框架,如Spark和Impala,以及YARN容量调治措施中的资源抢占。

缩放数据客栈也许会很昂贵。添加特另外高端硬件容量以及获取数据客栈器材的容许证也许会明显增进本钱。基于Hadoop的办理方案不只在商品硬件节点和开源器材方面更自制,并且还可以通过将数据转换卸载到Hadoop器材(如Spark和Impala)来补足数据客栈办理方案,从而更高效地并行处理赏罚大数据。这也将开释数据客栈资源。

试探新的渠道和线索。Hadoop可觉得数据科学家提供试探性的沙盒,以从交际媒体,日记文件,电子邮件等处所发明隐藏的有代价的数据,这些数据凡是在数据客栈中不行得。

更好的机动性。凡是营业需求的改变,也必要对架构和陈诉举办变动。基于Hadoop的办理方案不只可以机动地处理赏罚不绝成长的模式,还可以处理赏罚来自差异来历,如交际媒体,应用措施日记文件,image,PDF和文档文件的半布局化和非布局化数据。

5.大数据办理方案的要害步调是什么?

提取数据,存储数据(即数据建模)和处理赏罚数据(即数据加工,数据转换和查询数据)。

提取数据

从各类来历提取数据,譬喻:

  • RDBM(Relational Database Management Systems)相关数据库打点体系,如Oracle,MySQL等。
  • ERPs(Enterprise Resource Planning)企业资源筹划(即ERP)体系,如SAP。
  • CRM(Customer Relationships Management)客户相关打点体系,如Siebel,Salesforce等
  • 交际媒体Feed和日记文件。
  • 平面文件,文档和图像。

并将其存储在基于“Hadoop漫衍式文件体系”(简称HDFS)的数据中心上。可以通过批处理赏罚功课(譬喻每15分钟运行一次,每晚一次,等),近及时(即100毫秒至2分钟)流式传输和及时流式传输(即100毫秒以下)去收罗数据。

Hadoop中行使的一个常用术语是“Schema-On-Read”。这意味着未处理赏罚(也称为原始)的数据可以被加载到HDFS,其具有基于处理赏罚应用的需求在处理赏罚之时应用的布局。这与“Schema-On-Write”差异,后者用于必要在加载数据之前在RDBM中界说模式。

存储数据

数据可以存储在HDFS或NoSQL数据库,如HBase。HDFS针对次序会见和“一次写入和多次读取”的行使模式举办了优化。HDFS具有很高的读写速度,由于它可以将I / O并行到多个驱动器。HBase在HDFS之上,并以柱状方法将数据存储为键/值对。列作为列家属在一路。HBase得当随机读/写会见。在Hadoop中存储数据之前,你必要思量以下几点:

  • 数据存储名目:有很多可以应用的文件名目(譬喻CSV,JSON,序列,AVRO,Parquet等)和数据压缩算法(譬喻snappy,LZO,gzip,bzip2等)。每个都有非凡的上风。像LZO和bzip2的压缩算法是可拆分的。
  • 数据建模:尽量Hadoop的无模式性子,模式计划依然是一个重要的思量方面。这包罗存储在HBase,Hive和Impala中的工具的目次布局和模式。Hadoop凡是用作整个组织的数据中心,而且数据旨在共享。因此,布局化和有组织的数据存储很重要。
  • 元数据打点:与存储数据相干的元数据。
  • 多用户:更智能的数据中心托管多个用户、组和应用措施。这每每导致与统治、尺度化和打点相干的挑衅。

处理赏罚数据

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读