加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

Hadoop是什么,醒目什么,怎么行使

发布时间:2019-08-10 17:58:17 所属栏目:编程 来源:程序员界的彭于晏
导读:1、Hadoop是什么 1.1、小故事版本的表明 小明接到一个使命:计较一个100M的文本文件中的单词的个数,这个文本文件有多少行,每行有多少个单词,每行的单词与单词之间都是以空格键分隔的。对付处理赏罚这种100M量级数据的计较使命,小明感受很轻松。他起首把这
副问题[/!--empirenews.page--]

Hadoop是什么,醒目什么,怎么行使

1、Hadoop是什么

1.1、小故事版本的表明

小明接到一个使命:计较一个100M的文本文件中的单词的个数,这个文本文件有多少行,每行有多少个单词,每行的单词与单词之间都是以空格键分隔的。对付处理赏罚这种100M量级数据的计较使命,小明感受很轻松。他起首把这个100M的文件拷贝到本身的电脑上,然后写了个计较措施在他的计较机上执行后顺遂输出了功效。

其后,小明接到了其它一个使命,计较一个1T(1024G)的文本文件中的单词的个数。再其后,小明又接到一个使命,计较一个1P(1024T)的文本文件中的单词的个数……

面临这样大局限的数据,小明的那一台计较机已经存储不下了,也计较不了这样大的数据文件中到底有几多个单词了。机警的小明上网百度了一下,他在百度的输入框中写下了:大数据存储和计较怎么办?按下回车键之后,呈现了有关Hadoop的网页。

看了许多网页之后,小明总结一句话:Hadoop就是存储海量数据和说明海量数据的器材。

1.2、稍专业点的表明

Hadoop是由java说话编写的,在漫衍式处事器集群上存储海量数据并运行漫衍式说明应用的开源框架,其焦点部件是HDFS与MapReduce。

HDFS是一个漫衍式文件体系:引入存放文件元数据信息的处事器Namenode和现实存放数据的处事器Datanode,对数据举办漫衍式储存和读取。

MapReduce是一个计较框架:MapReduce的焦点头脑是把计较使命分派给集群内的处事器里执行。通过对计较使命的拆分(Map计较/Reduce计较)再按照使命调治器(JobTracker)对使命举办漫衍式计较。

1.3、记着下面的话:

Hadoop的框架最焦点的计划就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计较。

把HDFS领略为一个漫衍式的,有冗余备份的,可以动态扩展的用来存储大局限数据的大硬盘。

把MapReduce领略成为一个计较引擎,凭证MapReduce的法则编写Map计较/Reduce计较的措施,可以完成计较使命。

2、Hadoop醒目什么

大数据存储:漫衍式存储

日记处理赏罚:善于日记说明

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

呆板进修: 好比Apache Mahout项目

搜刮引擎:Hadoop + lucene实现

数据发掘:今朝较量风行的告白保举,本性化告白保举

Hadoop是专为离线和大局限数据说明而计划的,并不得当那种对几个记录随机读写的在线事宜处理赏罚模式。

现实应用:

(1)Flume+Logstash+Kafka+Spark Streaming举办及时日记处理赏罚说明

Hadoop是什么,醒目什么,怎么行使

(2)酷狗音乐的大数据平台

Hadoop是什么,醒目什么,怎么行使

3、怎么行使Hadoop

3.1、Hadoop集群的搭建

无论是在windows上装几台假造机玩Hadoop,照旧真实的处事器来玩,说简朴点就是把Hadoop的安装包放在每一台处事器上,改改设置,启动就完成了Hadoop集群的搭建。

3.2、上传文件到Hadoop集群

Hadoop集群搭建好往后,可以通过web页面查察集群的环境,还可以通过Hadoop呼吁来上传文件到hdfs集群,通过Hadoop呼吁在hdfs集群上成立目次,通过Hadoop呼吁删除集群上的文件等等。

3.3、编写map/reduce措施

通过集成开拓器材(譬喻eclipse)导入Hadoop相干的jar包,编写map/reduce措施,将措施打成jar包扔在集群上执行,运行后出计较功效。

 

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读