加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Hive实践分享之存储和压缩的坑

发布时间:2018-12-19 17:28:40 所属栏目:教程 来源:科多兽兽
导读:在进修大数据技能的进程中,HIVE长短常重要的技能之一,但我们在项目上常常会碰着一些存储和压缩的坑,本文通过科多大数据的武先生清算,分享给各人。 各人都知道,因为集群资源有限,我们一样平常城市针对数据文件的「存储布局」和「压缩情势」举办设置优化。

在进修大数据技能的进程中,HIVE长短常重要的技能之一,但我们在项目上常常会碰着一些存储和压缩的坑,本文通过科多大数据的武先生清算,分享给各人。

各人都知道,因为集群资源有限,,我们一样平常城市针对数据文件的「存储布局」和「压缩情势」举办设置优化。在我现实查察往后,发明集群的文件存储名目为Parquet,一种列式存储引擎,相同的尚有ORC。而文件的压缩情势为Snappy。详细的操纵情势如下:

Hive实践分享之存储和压缩的坑

① 建设Parquet布局的表(Hive 0.13 and later):

  1. CREATE TABLE CRM.DEMO(A INT) STORED AS PARQUET ; 

② 确认表的文件存储名目:

  1. desc formatted crm.demo; 

功效输出如下

  1. # Storage Information              
  2.  
  3. SerDe Library:          org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe       
  4.  
  5. InputFormat:                 org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat      
  6.  
  7. OutputFormat:               org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat  

③ 建设Snappy压缩名目标Parquet布局的表(待考查):

  1. ALTER TABLE crm.demo SET TBLPROPERTIES ('parquet.compression'='SNAPPY') ; 

或,写入时

  1. SET parquet.compression=SNAPPY ; 

回到最初的题目,假如是按Snappy压缩的名目,这份用户举动数据没步伐说明白,因此有两种步伐去办理:

① 安装Snappy的解压器材

可自行百度,因为没有权限,以是这条路行不通;

② 变动数据的压缩名目可以

最初我试了一下变动Parquet名目表的压缩名目,可是没有效!由于我最后是必要将查询数据导出到当地文件体系,如下语句所示:

  1. insert overwrite local directory '/home/etl/tmp/data' 
  2. select * 
  3. from crm.demo 

以是,通过这样的情势获得的数据,压缩名目依然是. Snappy。因此,这里就必要设置Hive执行进程中的中间数据和最终数据的压缩名目。

如MapReduce的shuffle阶段对mapper发生的中间功效数据压缩:

  1. hive> set mapred.map.output.compression.codec;  
  2. mapred.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec 

如对最终天生的Hive表的数据压缩:

  1. hive> set mapred.output.compression.codec;  
  2. mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec 

这里,我们要配置功效表数据的压缩名目,语句如下:

  1. set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 

最终的功效就是 .gz 的压缩名目

  1. -rw-r--r-- 1 etl etl 342094 May 10 11:13 000000_0.gz 

最后,我们直接下载到电脑当地,直接解压就可以通过Excel说明用户举动路径数据了。

总结:从Hive应用层的角度来说,关于数据文件的「存储布局」和「压缩情势」,这两个点我们不必要体谅,只是在导出数据的时辰必要团结文件巨细,以及数据范例去配置吻合的压缩名目。不外从Hive底层维护的角度来说,涉及到各类百般的「存储布局」和「压缩情势」,都必要开拓者去研究和调解,这样才气担保集群上的文件在「时刻」和「空间」上相对均衡。

【编辑保举】

  1. Netflix数据库架构厘革:缩放时刻序列的数据存储
  2. 数据存储之争:固态硬盘 vs. 机器硬盘
  3. Kubernetes 3种存储傻傻分不清晰!
  4. 关于私有云与存储风向的深度解读
  5. 杉岩与粤港澳大湾区金融创新研究院连系创立“智能存储尝试室”
【责任编辑:武晓燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读