加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

基于大数据的舆情分析系统架构(架构篇)

发布时间:2019-06-20 01:01:05 所属栏目:创业 来源:InfoQ
导读:副问题#e# 互联网的飞速成长促进了许多新媒体的成长,岂论是知名的大 V,明星照旧围观群众都可以通过手机在微博,伴侣圈可能点评网站上颁发状态,分享本身的所见所想,使得大家都有了麦克风。岂论是热门消息照旧娱乐八卦,撒播速率远超我们的想象。可以在短

图 3 开源舆情架构图 体系的最上游是漫衍式的爬虫引擎,按照抓取使命抓取订阅的网页原文内容。爬虫会把抓取到的网页内容及时写入 Kafka 行列,进入 Kafka 行列的数据按照前面描写的计较需求,会及时流入流计较引擎(譬喻 Spark 可能 Flink),也会耐久化存储在 Hbase,举办全量数据的存储。全量网页的存储可以满意网页爬取去重,批量离线计较的需求。 流计较会对原始网页举办布局化提取,将非布局化网页内容转化为布局数据并举办分词,譬喻提取出网页的问题,作者,择要等,对正文和择要内容举办分词。提取和分词功效会写回 Hbase。布局化提取和分词后,流计较引擎会团结情绪词库举办网页情绪说明,判定是否有舆情发生。 流计较引擎说明的舆情功效存储 Mysql 可能 Hbase 数据库中,为了利便功效集的搜刮查察,必要把数据同步到一个搜刮引擎譬喻 Elasticsearch,利便举办属性字段的组合查询。假如是重大的舆情时刻,必要写入 Kafka 行列触发舆谍报警。 全量的布局化数据会按期通过 Spark 体系举办离线计较,更新情绪词库可能接管新的计较计策从头计较汗青数据批改及时计较的功效。 开源架构说明

上面的舆情大数据架构,通过 Kafka 对接流计较,Hbase 对接批计较来实现 Lambda 架构中的“batch view”和“real-time view”,整套架构照旧较量清楚的,可以很好的满意在线和离线两类计较需求。可是把这一套体系应用在出产并不是一件轻易的工作,首要有下面一些缘故起因。

整套架构涉及到很是多的存储和计较体系包罗:Kafka,Hbase,Spark,Flink,Elasticsearch。数据会在差异的存储和计较体系中活动,运维好整套架构中的每一个开源产物都是一个很大的挑衅。任何一个产物可能是产物间的通道呈现妨碍,对整个舆情说明功效的时效性城市发生影响。 为了实现批计较和流计较,原始的网页必要别离存储在 Kafka 和 Hbase 中,离线计较是斲丧 hbase 中的数据,流计较斲丧 Kafka 的数据,这样会带来存储资源的冗余,同时也导致必要维护两套计较逻辑,计较代码开拓和维护本钱也会上升。 舆情的计较功效存储在 Mysql 可能 Hbase,为了富厚组合查询语句,必要把数据同步构建到 Elasticsearch 中。查询的时辰也许必要组合 Mysql 和 Elasticsearch 的查询功效。这里没有跳过数据库,直接把功效数据写入 Elasticsearch 这类搜刮体系,是由于搜刮体系的数据及时写入手段和数据靠得住性不如数据库,业界凡是是把数据库和搜刮体系整合,整合下的体系兼备了数据库和搜刮体系的上风,可是两个引擎之间数据的同步和跨体系查询对运维和开拓带来许多特另外本钱。 新的大数据架构 Lambda plus

通过前面的说明,信托各人城市有一个疑问,有没有简化的的大数据架构,在可以满意 Lambda 对计较需求的假设,又能镌汰存储计较以及模块的个数呢。Linkedin 的 Jay Kreps 提出了 Kappa 架构,关于 Lambda 和 Kappa 的比拟可以参考 " 云上大数据方案 " 这篇,这里不睁开具体比拟,简朴说下,Kappa 为了简化两份存储,打消了全量的数据存储库,通过在 Kafka 保存更长日记,当有回溯从头计较需求到来时,从头从行列的头部开始订阅数据,再一次用流的方法处理赏罚 Kafka 行列中生涯的全部数据。这样计划的甜头是办理了必要维护两份存储和两套计较逻辑的痛点,美中不敷的处所是行列可以保存的汗青数据事实有限,难以做到无时刻限定的回溯。说明到这里,我们沿着 Kappa 针对 Lambda 的改造思绪,向前多思索一些:若是有一个存储引擎,既满意数据库可以高效的写入和随机查询,又能像行列处事,满意先辈先出,是不是就可以把 Lambda 和 Kappa 架构揉合在一路,打造一个 Lambda plus 架构呢?

新架构在 Lambda 的基本上可以晋升以下几点:

在支持流计较和批计较的同时,让计较逻辑可以复用,实现“一套代码两类需求”。 同一汗青数据全量和在线及时增量数据的存储,实现“一份存储两类计较”。 为了利便舆情功效查询需求,“batch view”和“real-time view”存储在既可以支持高吞吐的及时写入,也可以支持多字段组合搜刮和全文检索。

总结起来就是整套新架构的焦点是办理存储的题目,以及怎样机动的对接计较。我们但愿整套方案是相同下面的架构:

图 4 Lambda Plus 架构 数据流及时写入一个漫衍式的数据库,借助于数据库查询手段,全量数据可以轻松的对接批量计较体系举办离线处理赏罚。 数据库通过数据库日记接口,支持增量读取,实现对接流计较引擎举办及时计较。 批计较和流计较的功效写回漫衍式数据库,漫衍式数据库提供富厚的查询语意,实现计较功效的交互式查询。

整套架构中,存储层面通过团结数据库主表数据和数据库日记来代替大数据架构中的行列处事,计较体系选取自然支持批和流的计较引擎譬喻 Flink 可能 Spark。这样一来,我们既可以像 Lambda 举办无穷制的汗青数据回溯,又可以像 Kappa 架构一样一套逻辑,存储处理赏罚两类计较使命。这样的一套架构我们取名为“Lambda plus”,下面就具体睁开如安在阿里云上打造这样的一套大数据架构。

云上舆情体系架构

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读