加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 业界 > 正文

基于动态知识图谱的大规模数据集成解决方案

发布时间:2020-05-30 03:10:50 所属栏目:业界 来源:站长网
导读:副问题#e# 在信息高速变革的期间,企业、当局对数据的认知是一个不绝变革的进程。凡是某个数据集成项目标初期,客户与集成方对数据、营业的认知都是不全面的,好比本日提供了生齿库的数据,来日诰日提供车辆数据、后天又提供了卡口数据在这种场景下,假如操作常

通过以上建模进程,在应用侧就成立了一个多源数据的同一的逻辑视图,即从说明职员的角度对全部数据构建成了一个图模子,说明职员无需存眷底层数据源差别和存储细节,只需存眷如安在此图模子长举办说明即可。
https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXjF9aSgO4YTGWU7AgPM4luFAeAQ2pJq9Zk7iaWhP4XHYsMKh2f4M14fg/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1
对付常识库的存储计划,由HBase焦点存储、Elasticsearch全文索引、neo4j相关索引构成。HBase存储了完备的数据,Elasticsearch成立全文索引利便用户搜刮,neo4j成立相关索引,以加快相关查询。 

四种数据集成架构

以上内容描写了整个数据模子构建的进程,任何数据要集成进来,必需先举办以上进程,在元数据层面举办拉通、融合。 接下来的题目就是怎样将客户的数据快速接入常识库的存储中去,以提供同一的数据查询处事,也就是数据层面的集成。 

因为数据具有多样化特点:

从数据范例上看,存在布局化数据、半布局化数据、非布局化数据;

从营业代价上来看,又分为高代价密度数据,如账户信息、转账信息、低代价密度数据,如日记信息;

从数据局限上来看,有超大局限数据,如万亿级数据,大局限数据,如亿级数据,小局限数据,如百万级以下数据。 百分点经验多个大型数据集成项目洗礼后发明,凡是高代价密度的数据,数据局限都不会太大。好比公安规模的重点职员数据、卡口装备数据、收集安详规模的高危IP、重点监控网站等“实体”数据,此类数据特性是数据量有限,代价密度高。 而假如数据局限高出10亿级,凡是都是“变乱”范例的数据,好比车辆通过卡口的变乱、手机连wifi的变乱和手机上网的HTTP日记。这类数据尚有一个典范特性,就是数据量庞大且无穷增添,但数据代价密度很低,凡是也只体谅最近一段时刻的日记。 因此,针对差异的数据场景,百分点提供了差异的数据集成要领,别离应对差异场景下的数据集成需求。

整体数据集成架构如下:

基于动态常识图谱的大局限数据集成办理方案

小局限数据集成:这类数据每每是客户提供了小局限的样本,通过前台Import成果,直接上传各类范例的文件,即可导入。

高代价密度数据集成:凡是是客户提供的要害数据,这类数据起首必要营业职员按照需求举办建模,然后通事靠山离线/及时数据流将数据接入到本体库中。

低代价密度数据集成:凡是是“变乱”数据,数据量极大,并有一按时效性,必要按期House Keeping。当前的实现方法是通过存放在外部OLAP型数据库中,应用层通过直连的方法举办adhoc查询,将个中有代价的数据选择性地导入到本体库中。

互联网半布局化数据集成:通过给定URL,会启动靠山爬虫,爬取对应的网页进入常识库,跟存量常识举办协同说明。 

实现“动态性”的焦点逻辑

百分点动态常识图谱实现“动态性”的焦点逻辑在于,回收元数据与存储疏散查询的方案,来赋予常识图谱“动态”特征,包括数据模子的动态性、模子改观的动态性、融合的动态性和“变乱”数据的动态性。 

1.数据模子的动态性

因为数据模子有一个专门的靠山打点体系举办设置打点,营业可以按照现实客户需求举办模子计划与数据源接入,节减了大量开拓本钱。

https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXlI4mL2oF6PwkgC1ZxluticdkCtdYXUsbMPnYyJYMwJdKg4v5BfsxYiag/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXhpuNd0CiclT4I3ezRfICJEocIGZdY49b4lNuiaTlsMnrzmAhwIFicvRiaA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1



https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTX0A7DuuFmDPDIN0QKUhdFiachB853XnDxl7icNTuuzYiaFhvZSNHuNr6ow/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXrvyZUHuHmiaqfsbd28mFp2sF1NWknw8m6np13sYNK8ynE0kJQoPdqHQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1





2.模子改观的动态性

举办新增字段、修改字段、删除字段,以及模子修改的时辰,在应用端不消从头导入数据。

实现方法如下:

本体库中的数据元数据的存储与物理数据的存储是疏散的,应用层查询MySQL获取元数据并举办缓存,然后在Elasticsearch中检索到数据后,会在应用层的内存中举办元数据与物理数据的拼装。
因此,当元数据改观后,只必要更新MySQL数据库与应用层的缓存,无需对现实的物理数据举办改观。
这里必要留意的是,在Elasticsearch中存储的是融合完成的数据。因此当融正当则改观后,必要重建索引。

https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXtnxGNKZMLzo0qbgesqOulNUfS0Km2pb46CibxicgEx3US25zzuPhedzA/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

3.融合的动态性

当融正当则改观后,只必要对特定表重建索引,无需从头导入用户数据。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读