加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

Hive 如何快速拉取大批量数据

发布时间:2020-11-08 21:16:32 所属栏目:建站 来源:网络整理
导读:用hive来做数仓类操纵,可能大数据的运算,是没有疑问的,至少在你没有更多选择之前。 当我们要hive来做相同于大批量数据的select时,大概题目就会产生了变革。 1. 通用办理方案之分页 起首,我们要基于一个究竟,就是没有哪个数据库可以无穷制的提供我们s

// 查察全部分片数据文件列表 hdfs dfs -ls hdfs://xx/hive/mydb.db/* // 下载全部数据文件到 /tmp/local_hdfs 目次 hdfs dfs -get hdfs://xx/hive/mydb.db/* /tmp/local_hdfs 

我们可以通过以上呼吁,将数据文件下载到当地,也可以hdfs的jar包,行使 hdfs-client 举办下载。优弱点是:行使cli的方法简朴不变但依靠于处事器情形,而行使jar包的方法则陈设利便但必要本身写更多代码担保不变性。各自选择即可。

最后,我们还剩下1个题目:如那里理赏罚姑且表的题目?hive今朝尚不支持配置表的生命周期(阿里云的maxcompute则只是一个 lifecycle 选项的题目),以是,必要自行整理文件。这个题目的实现方法许多,好比你可以自行记录这些姑且表的建设时刻、位置、逾期时刻,然后再天天运行剧本整理表即可。再简朴点就是你可以直接通过表名举办整理,好比你以年代日作为呼吁开头,那么你可以按照这日期删除姑且表即可。如:

-- 罗列表名 show tables like 'dbname.tmp_20201101*'; -- 删除详细表名 drop table dbname.tmp_2020110100001 ;  

至此,我们的全部题目已办理。总结下:起首行使姑且表并行地将功效写入;其次通过hdfs将文件快速下载到当地即可;最后必要按时整理姑且表;这样,你就可以高效,无穷制的为用户拉取大批量数据了。

不外必要留意的是,我们的步调从1个步调酿成了3个步调,增进了伟大度。(现实上你也许还会处理赏罚更多的题目,好比元数据信息的对应题目)伟大度增进的最大题目就在于,它会带来更多的题目,以是我们必然要擅甜头理赏罚好这些题目,不然将会带来一副浸染。

 

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读