憋瞎说,大数据不是你想的那样
门生党以及许多没计划过大数据开拓的小搭档呢,都对大数据这么一个规模感想很是很是的好奇很是很是的隐秘,我本日就非要揭穿给你们看。 1、对,我们做大数据的也写平凡的 Java 代码,写平凡的 SQL。 好比 Java API版的 Spark 措施,长得跟 Java8 的Stream API 一样一样的。 JavaRDD lines = sc.textFile("data.txt"); JavaRDD lineLengths = lines.map(s -> s.length()); int totalLength = lineLengths.reduce((a, b) -> a + b); 再好比,删除一个 Hive 表。 DROP TABLE pokes ; 2、对,Hadoop 、Spark 、Hive 的启动和呆板运维都跟一个平凡的 Java 应用和数据库没什么区别。 好比启动hdfs bash ./start-dfs.sh 好比启动yarn bash ./start-yarn.sh 好比启动hive bash ./hive 完事了,有啥隐秘的????不就是配一堆全部体系都有的设置吗? 3、对不起,没有一门叫数据客栈的技能。 数据客栈是一个集结了某个范畴内全部颠末洗濯的同一的数据存储、说明的所在,并没有一门叫数据客栈的技能。 在拭魅战中,我们一样平常会行使 Hive 来当数据客栈的载体,在没有大数据基本架构的公司也会行使各类传统 DB 来当数据客栈的载体,以是不要再说什么你要进修数据客栈 ok ? 要学 Hive 就说要学 Hive,要学数据管理就说要学数据管理。 4、对,我们大数据就是死写SQL的,但脑回路跟你们纷歧样 你们写 SQL 优先想成果,我们写SQL优先想这他妈能不能跑出来。 你们写 SQL 可以一向调一向调,我们写 SQL 要想良久才调一次,连呆板是什么跑的都要想清晰。 你们写 SQL 压根不管数据漫衍,我们写 SQL 第一件事就是他妈不会数据倾斜吧? 你们写 SQL 用都能直接写,我们写 SQL 前要写一万个 SQL 做数据洗濯。 5、对,10倍,100倍,100万倍 的数据增添我们就必要一向改方案,改改改。 你的 SQL 在10倍量下能跑,在100万倍下,你也许要支付很是久很是久的思索和全力才气根基跑出来,好比一个简朴的去重统计。 你的SQL count(1) group by 一下就出来了。 我的假如写得跟你一样我预计这辈子都出不来功效了。 不表明白,大数据计数系列相识一下。 大数据计数道理1+0=1这你都不会算(十)No.77 6、Spark 很快,但 Spark 也很慢 Spark是纯内存计较,但Spark也是批量计较,个中存在的缺陷你们思索一下,比拟一下 FLink 这类纯流式计较。 7、纵然你有100T数据,你也不是在做大数据。 第一数据存储占用空间大不代表就是大数据,第二纵然你数据量级够思想差池你也不是在做大数据。 8、大数据跟呆板进修是一家,压根离不开 你也许永久也不会知道 分而治之,统计学,概率论 在这两个学科的同一性和重要性。 9、对不起,你别觉得大数据只有 Hadoop,大数据技能栈广和深得你险些不行想象。 相干阅读:
2018年值得拥有的十大大数据发掘器材
纷繁伟大的数据越多越好
听我说,大数据必要学什么?
(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |