加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

听我说,大数据必要学什么?

发布时间:2018-09-27 17:52:23 所属栏目:大数据 来源:博客园精华区
导读:留意本文非告白,阅读时刻四分钟阁下,得当大数据入门级读者阅读,老鸟轻喷 大数据必要进修什么?许多人问过我这个题目。每一次答复完都认为本身讲得太单方面了,老是没有一个吻合的契机去好好总结这些内容,直到开始写这篇对象。大数据是近五年鼓起的行业,
副问题[/!--empirenews.page--]

留意本文非告白,阅读时刻四分钟阁下,得当大数据入门级读者阅读,老鸟轻喷

大数据必要进修什么?许多人问过我这个题目。每一次答复完都认为本身讲得太单方面了,老是没有一个吻合的契机去好好总结这些内容,直到开始写这篇对象。大数据是近五年鼓起的行业,成长敏捷,许多技能颠末这些年的迭代也变得较量成熟了,同时新的对象也不绝涌现,想要保持本身竞争力的独一步伐就是不绝进修。

思想导图

下面的是我清算的一张思想导图,内容分成几大块,包罗了漫衍式计较与查询,漫衍式调治与打点,耐久化存储,大数据常用的编程说话等等内容,每个大类下有许多的开源器材,这些就是作为大数据措施猿又爱又恨折腾得起死回生的对象了。

1

大数据必要的说话 Java

java可以说是大数据最基本的编程说话,据我这些年的履历,我打仗的很大一部门的大数据开拓都是从Jave Web开拓转岗过来的(虽然也不是绝对我乃至见过产物转岗大数据开拓的,逆了个天)。

一是由于大数据的本质无非就是海量数据的计较,查询与存储,靠山开拓很轻易打仗到大数据量存取的应用场景 二就是java说话才干了,自然的上风,由于大数据的组件许多都是用java开拓的像HDFS,Yarn,Hbase,MR,Zookeeper等等,想要深入进修,填上出产情形中踩到的各类坑,必需得先学会java然后去啃源码。

说到啃源码趁便说一句,开始的时辰必定是会很难,必要对组件自己和开拓说话都有较量深入的领略,熟能生巧逐步来,等你过了这个阶段,风俗了看源码办理题目的时辰你会发明源码真香。

Scala

scala和java很相似都是在jvm运行的说话,在开拓进程中是可以无缝相互挪用的。Scala在大数据规模的影响力大部门都是来自社区中的明星Spark和kafka,这两个对象各人应该都知道(后头我会有文章多维度先容它们),它们的强势成长直接发动了Scala在这个规模的风行。

Python和Shell

shell应该不消过多的先容很是的常用,属于措施猿必备的通用手艺。python更多的是用在数据发掘规模以及写一些伟大的且shell难以实现的一般剧本。

漫衍式计较

什么是漫衍式计较?漫衍式计较研究的是怎样把一个必要很是庞大的计较手段才气办理的题目分成很多小的部门,然后把这些部门分派给很多处事器举办处理赏罚,最后把这些计较功效综合起来获得最终的功效。

举个栗子,就像是组长把一个大项目拆分,让组员每小我私人开拓一部门,最后将全部人代码merge,大项目完成。听起来仿佛很简朴,可是真正参加过大项目开拓的人必然知道中间涉及的内容可不少。

好比这个大项目怎样拆分?使命怎样分派?每小我私人手头已有事变怎么办?每小我私人手段纷歧样怎么办?每小我私人开拓进度纷歧样怎么办?开拓进程中组员抱病要请长假他手头的事变怎么办?批示督促各人干活的组长告假了怎么办?最儿女码归并进程呈现题目怎么办?项目延期怎么办?项目最后黄了怎么办?

细心想想上面的夺命十连问,着实每一条都是对应了漫衍式计较也许会呈现的题目,详细怎么对应各人思索吧我就不多说了,着实已经长短常明明晰。大概有人认为这些题目着实在多人开拓的时辰都不重要不必要出格去思量怎么办,可是在漫衍式计较体系中纷歧样,每一个都长短常严峻而且很是基本的题目,必要有很好的办理方案。

最后提一下,漫衍式计较今朝风行的器材有:

离线器材Spark,MapReduce等 及时器材Spark Streaming,Storm,Flink等

这几个对象的区别和各自的应用场景我们之后再聊。

漫衍式存储

传统的收集存储体系回收的是齐集的存储处事器存放全部数据,单台存储处事器的io手段是有限的,这成为了体系机能的瓶颈,同时处事器的靠得住性和安详性也不能满意需求,尤其是大局限的存储应用。

漫衍式存储体系,是将数据分手存储在多台独立的装备上。回收的是可扩展的体系布局,操作多台存储处事器分管存储负荷,操作位置处事器定位存储信息,它不单进步了体系的靠得住性、可用性和存取服从,还易于扩展。

2

上图是hdfs的存储架构图,hdfs作为漫衍式文件体系,兼备了靠得住性和扩展性,数据存储3份在差异呆板上(两份存在统一机架,一份存在其他机架)担保数据不丢失。由NameNode同一打点元数据,可以恣意扩展集群。

主流的漫衍式数据库有许多hbase,mongoDB,GreenPlum,redis等等等等,没有孰好孰坏之分,只有合不吻合,每个数据库的应用场景都差异,着实直接较量是没故意义的,后续我也会有文章一个个讲授它们的应用场景道理架构等。

漫衍式调治与打点

此刻人们仿佛都很热衷于谈"去中心化",大概是区块链带起的这个潮水。可是"中心化"在大数据规模照旧很重要的,至少今朝来说是的。

漫衍式的集群打点必要有个组件去分派调治资源给各个节点,这个对象叫yarn; 必要有个组件来办理在漫衍式情形下"锁"的题目,这个对象叫zookeeper; 必要有个组件来记录使命的依靠相关并按时调治使命,这个对象叫azkaban。

虽然这些“对象”并不是独一的,着实都是有许多更换品的,我这里只举了几个较量常用的例子。

说两句

答复完这个题目,筹备说点其他的。最近想了好久,筹备开始写一系列的文章,记录这些年来的所得所想,感受内容较量多不知从那边开始,就画了文章开头的思想导图确定了大的偏向,各人都知道大数据的主流技能变革迭代很快,不绝会有新的对象插手,以是这张图里内容也会按照环境不绝添加。细节的对象我会边写边定,各人也可以给我一些提议,我会按照写的内容及时更新这张图以及下面的目次。

关于分组

上面的大数据组件分组着实是较量纠结的,出格是作为一个有强制症的措施猿,有些组件仿佛放在其他组也可以,并且我又不想要分太多的组看起来会很乱,以是上面这张图的分组方法会稍主观一些。分组方法必定不是绝对的。

举个例子,像kafka这种动静行列一样平常不会和其余的数据库可能像HDFS这种文件体系放在一路,可是它们同样都具备有漫衍式耐久化存储的成果,以是就把它们放在一块儿了;尚有openTsDB这种时序数据库,说是数据库现实上只是基于HBase上的一个应用,我认为这个对象更偏重于查询和以及用何种方法存储,而不在于存储自己,以是就主观地放在了“漫衍式计较与查询”这一类,尚有OLAP的器材也同样放在了这一组。

目标

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读