大数据架构的说明应用
Figure 1-8 展示了这些差异应用如安在该架构组织起来的。 Figure 1-8. Architecture overview 日记摄取 日记摄取应用被用作斲丧应用日记譬喻web 会见日记. 为了简化行使场景,提供一个web会见日记,模仿访客赏识产物目次,这些日记代表了点击流日记,既用作长时处理赏罚也用作及时保举。架构有两个选项:第一个是以Flume来传输日记;第二个是以LEK 来建设会见说明。 Figure 1-9 展示了ELK 和Flume是如那里理赏罚日记的. Figure 1-9. Ingestion application 我们在架构中行使ELK ,由于LEK的三个产物无缝集成,可以或许比行使Flume给我们更多的代价 。 呆板进修 呆板进修应用吸取数据流,构建保举引擎。这一应用行使一个根基的算法来基于Spark MLlib 先容 呆板进修的观念。 Figure 1-10 展示了该呆板进修应用怎样行使Kafka 吸取数据,然后发送给Spark 处理赏罚,最后在ElasticSearch 成立索引为未来行使做筹备。 Figure 1-10. Machine learning 处理赏罚引擎 处理赏罚引擎是该架构的心脏; 它吸取各类源的数据,署理吻合模子的处理赏罚。 Figure 1-11 展示了由Hive构成的处理赏罚引擎怎样吸取数据,以及Spark的及时/准及时处理赏罚。 Figure 1-11. Processing engine 这里行使Kafka 与 Logstash团结把数据分发给ElasticSearch. Spark位于 Hadoop 集群的顶端, 但不说必需的。为了简化起见,本书不成立 Hadoop集群,而是以standalone模式运行Spark。 相干阅读: 大数据进修蹊径(本身拟定,从零开始) 大数据干货 | 论Spark好手是奈何炼成的 怎样写一个更好的Python函数? (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |