基于动态知识图谱的大规模数据集成解决方案
通过以上建模进程,在应用侧就成立了一个多源数据的同一的逻辑视图,即从说明职员的角度对全部数据构建成了一个图模子,说明职员无需存眷底层数据源差别和存储细节,只需存眷如安在此图模子长举办说明即可。 四种数据集成架构 以上内容描写了整个数据模子构建的进程,任何数据要集成进来,必需先举办以上进程,在元数据层面举办拉通、融合。 接下来的题目就是怎样将客户的数据快速接入常识库的存储中去,以提供同一的数据查询处事,也就是数据层面的集成。 因为数据具有多样化特点: 从数据范例上看,存在布局化数据、半布局化数据、非布局化数据; 从营业代价上来看,又分为高代价密度数据,如账户信息、转账信息、低代价密度数据,如日记信息; 从数据局限上来看,有超大局限数据,如万亿级数据,大局限数据,如亿级数据,小局限数据,如百万级以下数据。 百分点经验多个大型数据集成项目洗礼后发明,凡是高代价密度的数据,数据局限都不会太大。好比公安规模的重点职员数据、卡口装备数据、收集安详规模的高危IP、重点监控网站等“实体”数据,此类数据特性是数据量有限,代价密度高。 而假如数据局限高出10亿级,凡是都是“变乱”范例的数据,好比车辆通过卡口的变乱、手机连wifi的变乱和手机上网的HTTP日记。这类数据尚有一个典范特性,就是数据量庞大且无穷增添,但数据代价密度很低,凡是也只体谅最近一段时刻的日记。 因此,针对差异的数据场景,百分点提供了差异的数据集成要领,别离应对差异场景下的数据集成需求。 整体数据集成架构如下: 小局限数据集成:这类数据每每是客户提供了小局限的样本,通过前台Import成果,直接上传各类范例的文件,即可导入。 高代价密度数据集成:凡是是客户提供的要害数据,这类数据起首必要营业职员按照需求举办建模,然后通事靠山离线/及时数据流将数据接入到本体库中。 低代价密度数据集成:凡是是“变乱”数据,数据量极大,并有一按时效性,必要按期House Keeping。当前的实现方法是通过存放在外部OLAP型数据库中,应用层通过直连的方法举办adhoc查询,将个中有代价的数据选择性地导入到本体库中。 互联网半布局化数据集成:通过给定URL,会启动靠山爬虫,爬取对应的网页进入常识库,跟存量常识举办协同说明。 实现“动态性”的焦点逻辑 百分点动态常识图谱实现“动态性”的焦点逻辑在于,回收元数据与存储疏散查询的方案,来赋予常识图谱“动态”特征,包括数据模子的动态性、模子改观的动态性、融合的动态性和“变乱”数据的动态性。 1.数据模子的动态性 因为数据模子有一个专门的靠山打点体系举办设置打点,营业可以按照现实客户需求举办模子计划与数据源接入,节减了大量开拓本钱。
举办新增字段、修改字段、删除字段,以及模子修改的时辰,在应用端不消从头导入数据。 实现方法如下: 本体库中的数据元数据的存储与物理数据的存储是疏散的,应用层查询MySQL获取元数据并举办缓存,然后在Elasticsearch中检索到数据后,会在应用层的内存中举办元数据与物理数据的拼装。 3.融合的动态性 当融正当则改观后,只必要对特定表重建索引,无需从头导入用户数据。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |