加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

BigData学习3_大数据技术Hadoop面试题_选择和判断

发布时间:2021-01-18 09:09:58 所属栏目:大数据 来源:网络整理
导读:单项选择题 1. 下面哪个措施认真 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认生涯几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个措施凡是与 NameNode 在一个节点启动? a)Secondary

单项选择题

1. 下面哪个措施认真 HDFS 数据存储。

a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker

2. HDfS 中的 block 默认生涯几份?

a)3 份
b)2 份
c)1 份
d)不确定

3. 下列哪个措施凡是与 NameNode 在一个节点启动?

a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

4. Hadoop 作者

a)Martin Fowler
b)Kent Beck
c)Doug cutting

5. HDFS 默认 Block Size

a)32MB
b)64MB
c)128MB

6. 下列哪项凡是是集群的最首要瓶颈

a)CPU
b)收集
c)磁盘
d)内存

7. 关于 SecondaryNameNode 哪项是正确的?

a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目标是辅佐 NameNode 归并编辑日记,镌汰 NameNode 启动时刻
d)SecondaryNameNode 应与 NameNode 陈设到一个节点

8. 下列哪项可以作为集群的打点器材

a)Puppet
b)Pdsh
c)Cloudera Manager
d)d)Zookeeper

9. 设置机架感知的下面哪项正确

a)假如一个机架出题目,不会影响数据读写
b)写入数据的时辰会写到差异机架的 DataNode 中
c)MapReduce 会按照机架获取离本身较量近的收集数据

10. Client 端上传文件的时辰下列哪项正确

a)数据颠末 NameNode 转达给 DataNode
b)Client 端将文件切分为 Block,依次上传
c)Client 只上传数据到一台 DataNode,然后由 NameNode 认真 Block 复制事变

11. 下列哪个是 Hadoop 运行的模式

a)单机版
b)伪漫衍式
c)漫衍式

12. Cloudera 提供哪几种安装 CDH 的要领

a)Cloudera manager
b)Tar ball
c)Yum d)Rpm

13. Ganglia 不只可以举办监控,也可以举办告警。( )

14. Block Size 是不行以修改的。( )

15. Nagios 不行以监控 Hadoop 集群,由于它不提供 Hadoop 支持。( )

16. 假如 NameNode 不测终止,SecondaryNameNode 会接替它使集群继承事变。( )

17. Cloudera CDH 是必要付费行使的。( )

18. Hadoop 是 Java 开拓的,以是 MapReduce 只支持 Java 说话编写。( )

19. Hadoop 支持数据的随机读写。( )

20. NameNode 认真打点 metadata,client 端每次读写哀求,它城市从磁盘中读取或则会写入 metadata 信息并反馈 client 端。( )

21. NameNode 当地磁盘生涯了 Block 的位置信息。( )

22. DataNode 通过长毗连与 NameNode 保持通讯。( )

23. Hadoop 自身具有严酷的权限打点和安详法子保障集群正常运行。( )

24. Slave 节点要存储数据,以是它的磁盘越大越好。( )

25. hadoop dfsadmin –report 呼吁用于检测 HDFS 破坏块。( )

26. Hadoop 默认调治器计策为 FIFO( )

27. 集群内每个节点都应该配 RAID,这样停止单磁盘破坏,影响整个节点运行。( )

28. 由于 HDFS 有多个副本,以是 NameNode 是不存在单点题目的。( )

29. 每个 map 槽就是一个线程。( )

30. Mapreduce 的 input split 就是一个 block。( )

31. NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web 处事。( )

32. Hadoop 情形变量中的 HADOOP_HEAPSIZE 用于配置全部 Hadoop 保卫线程的内存。它默认是 200 GB。( )

33. DataNode 初次插手 cluster 的时辰,假如 log 中陈诉不兼容文件版本,那必要 NameNode执行“Hadoop namenode -format”操纵名目化磁盘。( )

别走开,谜底在后头哦!


1. 下面哪个措施认真 HDFS 数据存储。谜底C datanode

a)NameNode
b)Jobtracker
c)Datanode?
d)secondaryNameNode
e)tasktracker

2. HDfS 中的 block 默认生涯几份? 谜底A默认3分

a)3 份
b)2 份
c)1 份
d)不确定

3. 下列哪个措施凡是与 NameNode 在一个节点启动?谜底D

a)SecondaryNameNode
b)DataNode
c)TaskTracker
d)Jobtracker

此题说明:

hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数目级上,以是凡是secondary NameNode(运行在单独的物理呆板上)和NameNode运行在差异的呆板上。

JobTracker和TaskTracker

JobTracker 对应于 NameNode

TaskTracker 对应于 DataNode

DataNode 和NameNode 是针对数据存放来而言的

JobTracker和TaskTracker是对付MapReduce执行而言的

mapreduce中几个首要观念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TaskTracker。

1、JobClient会在用户端通过JobClient类将应用已经设置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker建设每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker处事中去执行。

2、JobTracker是一个master处事,软件启动之后JobTracker吸取Job,认真调治Job的每一个子使命task运行于TaskTracker上,并监控它们,假如发明有失败的task就从头运行它。一样平常环境应该把JobTracker陈设在单独的呆板上。

3、TaskTracker是运行在多个节点上的slaver处事。TaskTracker主动与JobTracker通讯,吸取功课,并认真直接执行每一个使命。TaskTracker都必要运行在HDFS的DataNode上。

4. Hadoop 作者 谜底C Doug cutting

a)Martin Fowler
b)Kent Beck
c)Doug cutting

5. HDFS 默认 Block Size 谜底:B

a)32MB
b)64MB?
c)128MB

(由于版本改换较快,这里谜底只供参考)

6. 下列哪项凡是是集群的最首要瓶颈:谜底:C磁盘

a)CPU
b)收集
c)磁盘IO?
d)内存

该题理会:

起首集群的目标是为了节减本钱,用便宜的pc机,代替小型机及大型机。小型机和大型机有什么特点?

1.cpu处理赏罚手段强

2.内存够大

以是集群的瓶颈不行能是a和d

3.收集是一种稀缺资源,可是并不是瓶颈。

4.因为大数据面对海量数据,读写数据都必要io,然后还要冗余数据,hadoop一样平常备3份数据,以是IO就会打折扣。

7. 关于 SecondaryNameNode 哪项是正确的?谜底C

a)它是 NameNode 的热备
b)它对内存没有要求
c)它的目标是辅佐 NameNode 归并编辑日记,镌汰 NameNode 启动时刻
d)SecondaryNameNode 应与 NameNode 陈设到一个节点。

多选题:

8. 下列哪项可以作为集群的打点?谜底:ABD

9. 设置机架感知的下面哪项正确:谜底ABC

a)数据颠末 NameNode 转达给 DataNode

c)Client 只上传数据到一台 DataNode,然后由 NameNode 认真 Block 复制事变

该题说明:
Client向NameNode提倡文件写入的哀求。

NameNode按照文件巨细和文件块设置环境,返回给Client它所打点部门DataNode的信息。

Client将文件分别为多个Block,按照DataNode的地点信息,按次序写入到每一个DataNode块中。

11. 下列哪个是 Hadoop 运行的模式:谜底ABC

12. Cloudera 提供哪几种安装 CDH 的要领?谜底:ABCD

判定题:

13. Ganglia 不只可以举办监控,也可以举办告警。( 正确)

说明:此题的目标是考Ganglia的相识。严酷意义上来讲是正确。ganglia作为一款最常用的Linux情形中的监控软件,它善于的的是从节点中凭证用户的需求以较低的价钱收罗数据。可是ganglia在预警以及产闹变乱后关照用户上并不善于。最新的ganglia已经有了部门这方面的成果。可是更善于做告诫的尚有Nagios。Nagios,就是一款精于预警、关照的软件。通过将Ganglia和Nagios组合起来,把Ganglia收罗的数据作为Nagios的数据源,然后操作Nagios来发送预警关照,可以美满的实现一整套监控打点的体系。

14. Block Size 是不行以修改的。(错误 )

说明:它是可以被修改的Hadoop的基本设置文件是hadoop-default.xml,默认成立一个Job的时辰会成立Job的Config,Config起首读入hadoop-default.xml的设置,然后再读入hadoop-site.xml的设置(这个文件初始的时辰设置为空),hadoop-site.xml中首要设置必要包围的hadoop-default.xml的体系级设置。

15. Nagios 不行以监控 Hadoop 集群,由于它不提供 Hadoop 支持。

说明:Nagios是集群监控器材,并且是云计较三大利器之一

16. 假如 NameNode 不测终止,SecondaryNameNode 会接替它使集群继承事变。

说明:SecondaryNameNode是辅佐规复,而不是更换,怎样规复,可以查察

17. Cloudera CDH 是必要付费行使的。

说明:第一套付费产物是Cloudera Enterpris,Cloudera Enterprise在美国加州进行的 Hadoop 大会 (Hadoop Summit) 上果真,以多少私有打点、监控、运作器材增强 Hadoop 的成果。收费采纳合约订购方法,价值随用的 Hadoop 叢集巨细变换。

18. Hadoop 是 Java 开拓的,以是 MapReduce 只支持 Java 说话编写。

说明:rhadoop是用R说话开拓的,MapReduce是一个框架,可以领略是一种头脑,可以行使其他说话开拓。

19. Hadoop 支持数据的随机读写。(错 )

说明:lucene是支持随机读写的,而hdfs只支持随机读。可是HBase可以来调停。HBase提供随机读写,来办理Hadoop不能处理赏罚的题目。HBase自底层计划开始即聚焦于各类可伸缩性题目:表可以很“高”,稀有十亿个数据行;也可以很“宽”,稀有百万个列;程度分区并在上千个平凡商用机节点上自动复制。表的模式是物理存储的直接反应,使体系有也许进步高效的数据布局的序列化、存储和检索。

20. NameNode 认真打点 metadata,client 端每次读写哀求,它城市从磁盘中读取或则会写入 metadata 信息并反馈 client 端。(错误)

此题说明:

NameNode 不必要从磁盘读取 metadata,全部数据都在内存中,硬盘上的只是序列化的功效,只有每次 namenode 启动的时辰才会读取。
1)文件写入
Client向NameNode提倡文件写入的哀求。
NameNode按照文件巨细和文件块设置环境,返回给Client它所打点部门DataNode的信息。
Client将文件分别为多个Block,按照DataNode的地点信息,按次序写入到每一个DataNode块中。

2)文件读取
Client向NameNode提倡文件读取的哀求。

21. NameNode 当地磁盘生涯了 Block 的位置信息。( 小我私人以为正确,接待提出其余意见)

说明:DataNode是文件存储的根基单位,它将Block存储在当地文件体系中,生涯了Block的Meta-data,同时周期性地将全部存在的Block信息发送给NameNode。NameNode返回文件存储的DataNode的信息。
Client读取文件信息。

这个有分歧:详细正在找这方面的有利资料。下面提供资料可参考。

起首明晰一下观念:

(1).长毗连
Client方与Server方先成立通信毗连,毗连成立后不绝开,然后再举办报文发送和吸取。这种方法下因为通信毗连一向存在,此种方法常用于点对点通信。

(2).短毗连
Client方与Server每举办一次报文收发买卖营业时才举办通信毗连,买卖营业完毕后当即断开毗连。此种方法常用于一点对多点通信,好比多个Client毗连一个Server.

23. Hadoop 自身具有严酷的权限打点和安详法子保障集群正常运行。(错误 )

hadoop只能阻止大好人失足,可是不能阻止暴徒干坏事

24. Slave 节点要存储数据,以是它的磁盘越大越好。( 错误)

说明:一旦Slave节点宕机,数据规复是一个困难

25. hadoop dfsadmin –report 呼吁用于检测 HDFS 破坏块。(错误 )

26. Hadoop 默认调治器计策为 FIFO(正确 )

27. 集群内每个节点都应该配 RAID,这样停止单磁盘破坏,影响整个节点运行。(错误 )

说明:起首大白什么是RAID,可以参考百科磁盘阵列。这句话错误的处地址于太绝对,详细环境详细说明。标题不是重点,常识步崆最重要的。由于hadoop自己就具有冗余手段,以是假如不是很严酷不必要都配备RAID。详细参考第二题。

28. 由于 HDFS 有多个副本,以是 NameNode 是不存在单点题目的。 29. 每个 map 槽就是一个线程。

说明:起首我们知道什么是map 槽,map 槽->map slotmap slot 只是一个逻辑值 ( org.apache.hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots ),而不是对应着一个线程可能历程

30. Mapreduce 的 input split 就是一个 block。input split是输入分片,可以包罗多个block

31. NameNode 的 Web UI 端口是 50030,它通过 jetty 启动的 Web 处事。(错误 )

50070

32. Hadoop 情形变量中的 HADOOP_HEAPSIZE 用于配置全部 Hadoop 保卫线程的内存。它默认是 200 GB。( 错误)

hadoop为各个保卫历程(namenode,secondarynamenode,jobtracker,datanode,tasktracker)同一分派的内存在hadoop-env.sh中配置,参数为HADOOP_HEAPSIZE,默以为1000M。

33、33. DataNode 初次插手 cluster 的时辰,假如 log 中陈诉不兼容文件版本,那必要 NameNode执行“Hadoop namenode -format”操纵名目化磁盘。

说明:

起首大白先容,什么ClusterID

ClusterID

添加了一个新的标识符ClusterID用于标识集群中全部的节点。当名目化一个Namenode,必要提供这个标识符可能自动天生。这个ID可以被用来名目化插手集群的其他Namenode。

二次清算

有的同窗题目的重点不是上面说明内容:内容如下:

这个报错是声名 DataNode 所装的Hadoop版本和其余节点纷歧致,应该搜查DataNode的Hadoop版本

?

End.

原文来自:http://www.36dsj.com/archives/17345

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读