大数据进修蹊径(本身拟定,从零开始)
大数据已经火了好久了,一向想相识它进修它功效没时刻,相识了一些资料,团结我本身的环境,清算了一个进修蹊径。 进修蹊径 Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 呆板进修(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx) Python(python,spark python) 云计较平台(docker,kvm,openstack) 大数据进修资料分享群119599574 名词表明 一、Linux lucene: 全文检索引擎的架构 solr: 基于lucene的全文搜刮处事器,实现了可设置、可扩展并对查询机能举办了优化,而且提供了一个完美的成果打点界面。 二、Hadoop hadoop common HDFS: 漫衍式存储体系,包括NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。 yarn: 可以领略为MapReduce的和谐机制,本质就是Hadoop的处理赏罚说明机制,分为ResourceManager NodeManager。 MapReduce: 软件框架,编写措施。 Hive: 数据客栈 可以用SQL查询,可以运行Map/Reduce措施。用来计较趋势可能网站日记,不该用于及时查询,必要很长时刻返回功效。 HBase: 数据库。很是适实用来做大数据的及时查询。Facebook用Hbase存储动静数据并进动作静及时的说明 ZooKeeper: 针对大型漫衍式的靠得住性和谐体系。Hadoop的漫衍式同步等靠Zookeeper实现,譬喻多个NameNode,active standby切换。 Sqoop: 数据库彼此转移,相关型数据库和HDFS彼此转移 Mahout: 可扩展的呆板进修和数据发掘库。用来做保举发掘,聚积,分类,频仍项集发掘。 Chukwa: 开源网络体系,监督大型漫衍式体系,成立在HDFS和Map/Reduce框架之上。表现、监督、说明功效。 Ambari: 用于设置、打点和监督Hadoop集群,基于Web,界面友爱。 二、Cloudera Cloudera Manager: 打点 监控 诊断 集成 Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera对Hadoop做了响应的改变,刊行版本称为CDH。 Cloudera Flume: 日记网络体系,支持在日记体系中定制种种数据发送方,用来网络数据。 Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。 Cloudera hue: web打点器,包罗hue ui,hui server,hui db。hue提供全部CDH组件的shell界面的接口,可以在hue编写mr。 三、呆板进修/R R: 用于统计说明、画图的说话和操尽兴况,今朝有Hadoop-R mahout: 提供可扩展的呆板进修规模经典算法的实现,包罗聚类、分类、保举过滤、频仍子项发掘等,且可通过Hadoop扩展到云中。 四、storm Storm: 漫衍式,容错的及时流式计较体系,可以用作及时说明,在线呆板进修,信息流处理赏罚,持续性计较,漫衍式RPC,及时处理赏罚动静并更新数据库。 Kafka: 高吞吐量的漫衍式宣布订阅动静体系,可以处理赏罚斲丧者局限的网站中的全部举措流数据(赏识,搜刮等)。相对Hadoop的日记数据和离线说明,可以实现及时处理赏罚。今朝通过Hadoop的并行加载机制来同一线上和离线的动静处理赏罚 Redis: 由c说话编写,支持收集、可基于内存亦可耐久化的日记型、key-value型数据库。 五、Spark Scala: 一种相同java的完全面向工具的编程说话。 Spark: Spark是在Scala说话中实现的相同于Hadoop MapReduce的通用并行框架,除了Hadoop MapReduce所具有的利益,但差异于MapReduce的是job中间输出功效可以生涯在内存中,从而不必要读写HDFS,因此Spark能更好的合用于数据发掘与呆板进修等必要迭代的MapReduce算法。可以和Hadoop文件体系并行运作,用过Mesos的第三方集群框架可以支持此举动。 Spark SQL: Spark Streaming: 一种构建在Spark上的及时计较框架,扩展了Spark处理赏罚大数据流式数据的手段。 Spark MLlib: MLlib是Spark是常用的呆板进修算法的实现库,今朝(2014.05)支持二元分类,回归,聚类以及协同过滤。同时也包罗一个底层的梯度降落优化基本算法。MLlib以来jblas线性代数库,jblas自己以来长途的Fortran措施。 Spark GraphX: GraphX是Spark顶用于图和图并行计较的API,可以在Spark之上提供一站式数据办理方案,可以利便且高效地完成图计较的一整套流水功课。 jblas: 一个快速的线性代数库(JAVA)。基于BLAS与LAPACK,矩阵计较现实的行业尺度,并行使先辈的基本办法等全部的计较措施的ATLAS艺术的实现,使其很是快。 Fortran: 最早呈现的计较机高级措施计划说话,普及应用于科学和工程计较规模。 BLAS: 基本线性代数子措施库,拥有大量已经编写好的关于线性代数运算的措施。 LAPACK: 闻名的果真软件,包括了求解科学与工程计较中最常见的数值线性代数题目,如求解线性方程组、线性最小二乘题目、特性值题目和奇特值题目等。 ATLAS: BLAS线性算法库的优化版本。 Spark Python: Spark是由scala说话编写的,可是为了推广和兼容,提供了java和python接口。 六、Python Python: 一种面向工具的、表明型计较机措施计划说话。 七、云计较平台 Docker: 开源的应用容器引擎 kvm: (Keyboard Video Mouse) openstack: 开源的云计较打点平台项目 相干阅读: 对付进修大数据的新人,面临开拓说话和说明软件时,该怎样选择? 怎样写一个更好的Python函数? 怎样入门大数据 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |