Hive实践分享之存储和压缩的坑
在进修大数据技能的进程中,HIVE长短常重要的技能之一,但我们在项目上常常会碰着一些存储和压缩的坑,本文通过科多大数据的武先生清算,分享给各人。 各人都知道,因为集群资源有限,,我们一样平常城市针对数据文件的「存储布局」和「压缩情势」举办设置优化。在我现实查察往后,发明集群的文件存储名目为Parquet,一种列式存储引擎,相同的尚有ORC。而文件的压缩情势为Snappy。详细的操纵情势如下: ① 建设Parquet布局的表(Hive 0.13 and later):
② 确认表的文件存储名目:
功效输出如下
③ 建设Snappy压缩名目标Parquet布局的表(待考查):
或,写入时
回到最初的题目,假如是按Snappy压缩的名目,这份用户举动数据没步伐说明白,因此有两种步伐去办理: ① 安装Snappy的解压器材 可自行百度,因为没有权限,以是这条路行不通; ② 变动数据的压缩名目可以 最初我试了一下变动Parquet名目表的压缩名目,可是没有效!由于我最后是必要将查询数据导出到当地文件体系,如下语句所示:
以是,通过这样的情势获得的数据,压缩名目依然是. Snappy。因此,这里就必要设置Hive执行进程中的中间数据和最终数据的压缩名目。 如MapReduce的shuffle阶段对mapper发生的中间功效数据压缩:
如对最终天生的Hive表的数据压缩:
这里,我们要配置功效表数据的压缩名目,语句如下:
最终的功效就是 .gz 的压缩名目
最后,我们直接下载到电脑当地,直接解压就可以通过Excel说明用户举动路径数据了。 总结:从Hive应用层的角度来说,关于数据文件的「存储布局」和「压缩情势」,这两个点我们不必要体谅,只是在导出数据的时辰必要团结文件巨细,以及数据范例去配置吻合的压缩名目。不外从Hive底层维护的角度来说,涉及到各类百般的「存储布局」和「压缩情势」,都必要开拓者去研究和调解,这样才气担保集群上的文件在「时刻」和「空间」上相对均衡。 【编辑保举】
点赞 0 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |