憋瞎说，大数据不是你想的那样

发布时间：2018-09-27 08:45:51 所属栏目：大数据来源：一名叫大蕉的程序员

导读：门生党以及许多没计划过大数据开拓的小搭档呢，都对大数据这么一个规模感想很是很是的好奇很是很是的隐秘，我本日就非要揭穿给你们看。 1、对，我们做大数据的也写平凡的 Java 代码，写平凡的 SQL。好比 Java API版的 Spark 措施，长得跟 Java8 的Stream

门生党以及许多没计划过大数据开拓的小搭档呢，都对大数据这么一个规模感想很是很是的好奇很是很是的隐秘，我本日就非要揭穿给你们看。

86822ec310fecfc71c0260b90f47ba9d.jpeg-wh_651x-s_2252047527

1、对，我们做大数据的也写平凡的 Java 代码，写平凡的 SQL。

好比 Java API版的 Spark 措施，长得跟 Java8 的Stream API 一样一样的。

JavaRDD lines = sc.textFile("data.txt");

JavaRDD lineLengths = lines.map(s -> s.length());

int totalLength = lineLengths.reduce((a, b) -> a + b);

再好比，删除一个 Hive 表。

DROP TABLE pokes ;

2、对，Hadoop 、Spark 、Hive 的启动和呆板运维都跟一个平凡的 Java 应用和数据库没什么区别。

好比启动hdfs

bash ./start-dfs.sh

好比启动yarn

bash ./start-yarn.sh

好比启动hive

bash ./hive

完事了，有啥隐秘的????不就是配一堆全部体系都有的设置吗?

3、对不起，没有一门叫数据客栈的技能。

数据客栈是一个集结了某个范畴内全部颠末洗濯的同一的数据存储、说明的所在，并没有一门叫数据客栈的技能。

在拭魅战中，我们一样平常会行使 Hive 来当数据客栈的载体，在没有大数据基本架构的公司也会行使各类传统 DB 来当数据客栈的载体，以是不要再说什么你要进修数据客栈 ok ? 要学 Hive 就说要学 Hive，要学数据管理就说要学数据管理。

4、对，我们大数据就是死写SQL的，但脑回路跟你们纷歧样

你们写 SQL 优先想成果，我们写SQL优先想这他妈能不能跑出来。你们写 SQL 可以一向调一向调，我们写 SQL 要想良久才调一次，连呆板是什么跑的都要想清晰。你们写 SQL 压根不管数据漫衍，我们写 SQL 第一件事就是他妈不会数据倾斜吧? 你们写 SQL 用都能直接写，我们写 SQL 前要写一万个 SQL 做数据洗濯。

5、对，10倍，100倍，100万倍的数据增添我们就必要一向改方案，改改改。

你的 SQL 在10倍量下能跑，在100万倍下，你也许要支付很是久很是久的思索和全力才气根基跑出来，好比一个简朴的去重统计。

你的SQL count(1) group by 一下就出来了。

我的假如写得跟你一样我预计这辈子都出不来功效了。

不表明白，大数据计数系列相识一下。

大数据计数道理1+0=1这你都不会算(十)No.77

6、Spark 很快，但 Spark 也很慢

Spark是纯内存计较，但Spark也是批量计较，个中存在的缺陷你们思索一下，比拟一下 FLink 这类纯流式计较。

7、纵然你有100T数据，你也不是在做大数据。

第一数据存储占用空间大不代表就是大数据，第二纵然你数据量级够思想差池你也不是在做大数据。

8、大数据跟呆板进修是一家，压根离不开

你也许永久也不会知道分而治之，统计学，概率论在这两个学科的同一性和重要性。

9、对不起，你别觉得大数据只有 Hadoop，大数据技能栈广和深得你险些不行想象。

相干阅读：

2018年值得拥有的十大大数据发掘器材

纷繁伟大的数据越多越好

听我说，大数据必要学什么?

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智