加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

大数据干货:Hadoop 口试中 7个必问题目及谜底

发布时间:2019-10-31 09:09:48 所属栏目:教程 来源:大数据三十四号
导读:1.什么是Hadoop? Hadoop是一个开源软件框架,用于存储大量数据,并发处理赏罚/查询在具有多个商用硬件(即低本钱硬件)节点的集群上的那些数据。总之,Hadoop包罗以下内容: HDFS(Hadoop Distributed File System,Hadoop漫衍式文件体系):HDFS应承你以一种漫衍

Hadoop的处理赏罚框架行使HDFS。它行使“Shared Nothing”架构,在漫衍式体系中,每个节点完全独立于体系中的其他节点。没有共享资源,如CPU,内存以及会成为瓶颈的磁盘存储。Hadoop的处理赏罚框架(如Spark,Pig,Hive,Impala等)处理赏罚数据的差异子集,而且不必要打点对共享数据的会见。 “Shared Nothing”架构长短常可扩展的,由于更多的节点可以被添加而没有更进一步的争用和容错,由于每个节点是独立的,而且没有单点妨碍,体系可以从单个节点的妨碍快速规复。

6.你会怎样选择差异的文件名目存储和处理赏罚数据?

计划决定的要害之一是基于以下方面存眷文件名目:

  • 行使模式,譬喻会见50列中的5列,而不是会见大大都列。
  • 可并行处理赏罚的可破碎性。
  • 块压缩节减存储空间vs读/写/传输机能
  • 模式演化以添加字段,修改字段和重定名字段。

CSV文件

CSV文件凡是用于在Hadoop和外部体系之间互换数据。CSV是可读和可理会的。 CSV可以利便地用于从数据库到Hadoop或到说明数据库的批量加载。在Hadoop中行使CSV文件时,不包罗页眉或页脚行。文件的每一行都应包括记录。CSV文件对模式评估的支持是有限的,由于新字段只能附加到记录的末了,而且现有字段不能受到限定。CSV文件不支持块压缩,因此压缩CSV文件会有明明的读取机能本钱。

JSON文件

JSON记录与JSON文件差异;每一行都是其JSON记录。因为JSON将模式和数据一路存储在每个记录中,因此它可以或许实现完备的模式演进和可拆分性。另外,JSON文件不支持块级压缩。

序列文件

序列文件以与CSV文件相同的布局用二进制名目存储数据。像CSV一样,序列文件不存储元数据,因此只有模式进化才将新字段附加到记录的末端。与CSV文件差异,序列文件确实支持块压缩。序列文件也是可拆分的。序列文件可以用于办理“小文件题目”,方法是通过组合较小的通过存储文件名作为键和文件内容作为值的XML文件。因为读取序列文件的伟大性,它们更适实用于在航行中的(即中间的)数据存储。

留意:序列文件是以Java为中心的,不能跨平台行使。

Avro文件

得当于有模式的恒久存储。Avro文件存储具稀有据的元数据,但也应承指定用于读取文件的独立模式。启用完全的模式进化支持,应承你通过界说新的独立模式重定名、添加和删除字段以及变动字段的数据范例。Avro文件以JSON名目界说模式,数据将回收二进制JSON名目。Avro文件也是可拆分的,并支持块压缩。更得当必要行级会见的行使模式。这意味着查询该行中的全部列。不合用于行有50+列,但行使模式只必要会见10个或更少的列。Parquet文件名目更得当这个列会见行使模式。

Columnar名目,譬喻RCFile,ORC

RDBM以面向行的方法存储记录,由于这对付必要在获取很多列的记录的环境下是高效的。假如在向磁盘写入记录时已知全部列值,则面向行的写也是有用的。可是这种要领不能有用地获取行中的仅10%的列可能在写入时全部列值都不知道的环境。这是Columnar文件更故意义的处所。以是Columnar名目在以下环境下事变精采

  • 在不属于查询的列上跳过I / O息争压缩
  • 用于仅会见列的一小部门的查询。
  • 用于数据客栈型应用措施,其顶用户想要在大量记录上聚合某些列。

RC和ORC名目是专门用Hive写的而不是通用作为Parquet。

Parquet文件

Parquet文件是一个columnar文件,如RC和ORC。Parquet文件支持块压缩并针对查询机能举办了优化,可以从50多个列记录中选择10个或更少的列。Parquet文件写入机能比非columnar文件名目慢。Parquet通过应承在最后添加新列,还支持有限的模式演变。Parquet可以行使Avro API和Avro架构举办读写。

以是,总而言之,相对付其他,你应该会更喜好序列,Avro和Parquet文件名目;序列文件用于原始和中间存储,Avro和Parquet文件用于处理赏罚。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读