Hive 如何快速拉取大批量数据

发布时间：2020-11-08 21:16:32 所属栏目：建站来源：网络整理

导读：用hive来做数仓类操纵，可能大数据的运算，是没有疑问的，至少在你没有更多选择之前。当我们要hive来做相同于大批量数据的select时，大概题目就会产生了变革。 1. 通用办理方案之分页起首，我们要基于一个究竟，就是没有哪个数据库可以无穷制的提供我们s

可是，这个会有什么题目?同样，小数据量时无任何疑问，但当数据量足够大时，每一次的数据吸取，都必要一次收集通讯请问，且都是单线程的。我们假设接管一条数据耗费1ms, 那么吸取1000条数就是1s, 6k条数据就是1min。36w条数据就是1h, 额，后头就无需再算了。同样是不行估计的时刻耗损。(现实环境大概会好点，由于会有buffer缓冲的存在)

为什么会这样呢?运算量已经减小了，可是这收集通讯量，我们又能怎样?现实上，题目不在于收集通讯题目，而在于我们行使这种方法，使我们从并行计较转到了串行计较的进程了。由于只有单点的数据吸取，以是只能将数据搜集处理赏罚。从而就是一个串行化的对象了。

以是，我们更多应该从并行这一层面去办理题目。

3. 基于姑且表实现

要办理并行变串行的题目，最基础的步伐就是停止一条条读取数据。而要停止这个题目，一个很好想到的步伐就是行使姑且表，绕开本身代码的限定。让大数据集群自行处理赏罚并行计较题目，这是个不错的设法。

但详细怎样做呢?我们面对至少这么几个题目：

怎样将数据写入姑且表? 写入姑且表的数据怎样取回?是否存在瓶颈题目? 姑且表后续如那里理赏罚?

我们一个个题目来，第1个，怎样写姑且表题目：我们可以选择先建设一个姑且表，然后再行使insert into select ... from ... 的方法写入，但这种方法很是艰辛，起首你得固化下姑且表的数据布局，其次你要处理赏罚多次写入题目。看起来不是最好的步伐。幸好，hive中可能相干数据库产物都提供了另一种更利便的建姑且表的要领: create table xxx as select ... from ... 你只必要行使一个语句就可以将功效写入到姑且表了。但必要留意的是，我们建设时，必要指定好我们必要的名目，不然最终功效大概不是我们想要的，好比我们必要行使','脱离数据而非tab, 我们必要行使 text 情势的数据，而非压缩的二进制名目。

以下是个行使样例：

-- 外部行使 create table 包裹 CREATE TABLE tmp_2020110145409001 ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE as -- 详细的营业select sql select t1.*, t2.* from test t1 left join test2 t2 on t1.id = t2.t_id ;

云云，我们就获得所需的功效了。以上功效，在hive中示意为一个姑且表。而其背后则是一个个切分的文件，以','号脱离的文本文件，且会凭证hive的默认存储目次存放。(更多详细语法请查询官网资料)

接下来，我们要办理第2个题目：怎样将数据取回?这个题目也不难，起首，此刻功效已经有了，我们可以一行行地读取返回，就像前面一样。但这时已经没有了数据运算，应该会好许多。但明明照旧不足好，我们如故必要重复的收集通讯。我们知道，hive存储的背后，是一个个切分的文件，假如我们可以或许将该文件直接下载下来，那将会长短常棒的事。不错，最好的步伐就是，直接下载hive的数据文件，hive会存储目次下，以相同于 part_0000, part_0001... 之类的文件存放。

那么，我们怎样才气下载到这些文件呢?hive是基于hadoop的，以是，很明明我们要回到这个题目，基于hadoop去获取这些文件。即 hdfs 获取，呼吁如下：

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

SEO排名难做的四大原因	在保持网站优化的同时
网站SEO优化的几个技巧	网站原创内容怎么写？