Hive 如何快速拉取大批量数据
// 查察全部分片数据文件列表 hdfs dfs -ls hdfs://xx/hive/mydb.db/* // 下载全部数据文件到 /tmp/local_hdfs 目次 hdfs dfs -get hdfs://xx/hive/mydb.db/* /tmp/local_hdfs 我们可以通过以上呼吁,将数据文件下载到当地,也可以hdfs的jar包,行使 hdfs-client 举办下载。优弱点是:行使cli的方法简朴不变但依靠于处事器情形,而行使jar包的方法则陈设利便但必要本身写更多代码担保不变性。各自选择即可。 最后,我们还剩下1个题目:如那里理赏罚姑且表的题目?hive今朝尚不支持配置表的生命周期(阿里云的maxcompute则只是一个 lifecycle 选项的题目),以是,必要自行整理文件。这个题目的实现方法许多,好比你可以自行记录这些姑且表的建设时刻、位置、逾期时刻,然后再天天运行剧本整理表即可。再简朴点就是你可以直接通过表名举办整理,好比你以年代日作为呼吁开头,那么你可以按照这日期删除姑且表即可。如: -- 罗列表名 show tables like 'dbname.tmp_20201101*'; -- 删除详细表名 drop table dbname.tmp_2020110100001 ; 至此,我们的全部题目已办理。总结下:起首行使姑且表并行地将功效写入;其次通过hdfs将文件快速下载到当地即可;最后必要按时整理姑且表;这样,你就可以高效,无穷制的为用户拉取大批量数据了。 不外必要留意的是,我们的步调从1个步调酿成了3个步调,增进了伟大度。(现实上你也许还会处理赏罚更多的题目,好比元数据信息的对应题目)伟大度增进的最大题目就在于,它会带来更多的题目,以是我们必然要擅甜头理赏罚好这些题目,不然将会带来一副浸染。
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |