加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据架构的说明应用

发布时间:2018-10-20 03:00:42 所属栏目:大数据 来源:51CTO技术栈
导读:数据打点比以往越发伟大,处处都是大数据,包罗每小我私人的设法以及差异的情势:告白 、 交际图谱、信息流 、保举 、市

Figure 1-8 展示了这些差异应用如安在该架构组织起来的。

9

Figure 1-8. Architecture overview

日记摄取

日记摄取应用被用作斲丧应用日记譬喻web 会见日记. 为了简化行使场景,提供一个web会见日记,模仿访客赏识产物目次,这些日记代表了点击流日记,既用作长时处理赏罚也用作及时保举。架构有两个选项:第一个是以Flume来传输日记;第二个是以LEK 来建设会见说明。

Figure 1-9 展示了ELK 和Flume是如那里理赏罚日记的.

10

Figure 1-9. Ingestion application

我们在架构中行使ELK ,由于LEK的三个产物无缝集成,可以或许比行使Flume给我们更多的代价 。

呆板进修

呆板进修应用吸取数据流,构建保举引擎。这一应用行使一个根基的算法来基于Spark MLlib 先容 呆板进修的观念。

Figure 1-10 展示了该呆板进修应用怎样行使Kafka 吸取数据,然后发送给Spark 处理赏罚,最后在ElasticSearch 成立索引为未来行使做筹备。

11

Figure 1-10. Machine learning

处理赏罚引擎

处理赏罚引擎是该架构的心脏; 它吸取各类源的数据,署理吻合模子的处理赏罚。

Figure 1-11 展示了由Hive构成的处理赏罚引擎怎样吸取数据,以及Spark的及时/准及时处理赏罚。

12

Figure 1-11. Processing engine

这里行使Kafka 与 Logstash团结把数据分发给ElasticSearch. Spark位于 Hadoop 集群的顶端, 但不说必需的。为了简化起见,本书不成立 Hadoop集群,而是以standalone模式运行Spark。

相干阅读:

大数据进修蹊径(本身拟定,从零开始)

大数据干货 | 论Spark好手是奈何炼成的

怎样写一个更好的Python函数?

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读