加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

憋瞎说,大数据不是你想的那样

发布时间:2018-09-27 08:45:51 所属栏目:大数据 来源:一名叫大蕉的程序员
导读:门生党以及许多没计划过大数据开拓的小搭档呢,都对大数据这么一个规模感想很是很是的好奇很是很是的隐秘,我本日就非要揭穿给你们看。 1、对,我们做大数据的也写平凡的 Java 代码,写平凡的 SQL。 好比 Java API版的 Spark 措施,长得跟 Java8 的Stream

门生党以及许多没计划过大数据开拓的小搭档呢,都对大数据这么一个规模感想很是很是的好奇很是很是的隐秘,我本日就非要揭穿给你们看。

86822ec310fecfc71c0260b90f47ba9d.jpeg-wh_651x-s_2252047527

1、对,我们做大数据的也写平凡的 Java 代码,写平凡的 SQL。

好比 Java API版的 Spark 措施,长得跟 Java8 的Stream API 一样一样的。

JavaRDD lines = sc.textFile("data.txt");  

JavaRDD lineLengths = lines.map(s -> s.length());  

int totalLength = lineLengths.reduce((a, b) -> a + b); 

再好比,删除一个 Hive 表。

DROP TABLE pokes ;

2、对,Hadoop 、Spark 、Hive 的启动和呆板运维都跟一个平凡的 Java 应用和数据库没什么区别。

好比启动hdfs

bash ./start-dfs.sh

好比启动yarn

bash ./start-yarn.sh

好比启动hive

bash ./hive

完事了,有啥隐秘的????不就是配一堆全部体系都有的设置吗?

3、对不起,没有一门叫数据客栈的技能。

数据客栈是一个集结了某个范畴内全部颠末洗濯的同一的数据存储、说明的所在,并没有一门叫数据客栈的技能。

在拭魅战中,我们一样平常会行使 Hive 来当数据客栈的载体,在没有大数据基本架构的公司也会行使各类传统 DB 来当数据客栈的载体,以是不要再说什么你要进修数据客栈 ok ? 要学 Hive 就说要学 Hive,要学数据管理就说要学数据管理。

4、对,我们大数据就是死写SQL的,但脑回路跟你们纷歧样

你们写 SQL 优先想成果,我们写SQL优先想这他妈能不能跑出来。 你们写 SQL 可以一向调一向调,我们写 SQL 要想良久才调一次,连呆板是什么跑的都要想清晰。 你们写 SQL 压根不管数据漫衍,我们写 SQL 第一件事就是他妈不会数据倾斜吧? 你们写 SQL 用都能直接写,我们写 SQL 前要写一万个 SQL 做数据洗濯。

5、对,10倍,100倍,100万倍 的数据增添我们就必要一向改方案,改改改。

你的 SQL 在10倍量下能跑,在100万倍下,你也许要支付很是久很是久的思索和全力才气根基跑出来,好比一个简朴的去重统计。

你的SQL count(1) group by 一下就出来了。

我的假如写得跟你一样我预计这辈子都出不来功效了。

不表明白,大数据计数系列相识一下。

大数据计数道理1+0=1这你都不会算(十)No.77

6、Spark 很快,但 Spark 也很慢

Spark是纯内存计较,但Spark也是批量计较,个中存在的缺陷你们思索一下,比拟一下 FLink 这类纯流式计较。

7、纵然你有100T数据,你也不是在做大数据。

第一数据存储占用空间大不代表就是大数据,第二纵然你数据量级够思想差池你也不是在做大数据。

8、大数据跟呆板进修是一家,压根离不开

你也许永久也不会知道 分而治之,统计学,概率论 在这两个学科的同一性和重要性。

9、对不起,你别觉得大数据只有 Hadoop,大数据技能栈广和深得你险些不行想象。

相干阅读:

 

2018年值得拥有的十大大数据发掘器材

 

纷繁伟大的数据越多越好

 

听我说,大数据必要学什么?

 

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读