加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

“搜刮”的道理,架构,实现,实践,口试不消再怕了(值得保藏)!!!

发布时间:2019-04-01 20:11:34 所属栏目:建站 来源:58沈剑
导读:也许99%的同窗不做搜刮引擎,但99%的同窗必然实现过检索成果。搜刮,检索,这内里到底包括哪些技能的对象,但愿本文可以或许给各人一些启迪。 全网搜刮引擎架构与流程怎样? 全网搜刮引擎的宏观架构如上图,焦点子体系首要分为三部门(粉色部门): (1)spider爬虫

当有查询哀求产生时,会同时查询各个级此外索引,将功效归并,获得最新的数据:

  • 全量库是细密存储的索引,无碎片,速率快;
  • 天库是细密存储,速率快;
  • 小时库数据量小,速率也快;

分级索引可以或许担保及时性,那么,新的题目来了,小时库数据何时反应到天库中,天库中的数据何时反应到全量库中呢?

dump&merge,索引的导出与归并,由这两个异步的器材完成:

  • dumper:将在线的数据导出。
  • merger:将离线的数据归并到高一级此外索引中去。

小时库,一小时一次,归并到天库中去;

天库,一天一次,归并到全量库中去;

这样就担保了小时库和天库的数据量都不会出格大;

假如数据量和并发量更大,还能增进礼拜库,月库来缓冲。

简朴小结一下:

超大数据量,超高并发量,及时搜刮引擎的两个架构要点:

  • 索引分级;
  • dump&merge;

关于“搜刮”与“检索”,GET到新手艺了吗?

【本文为51CTO专栏作者“58沈剑”原创稿件,转载请接洽原作者】

戳这里,看该作者更多好文

【编辑保举】

  1. 毕竟啥才是互联网架构“高可用”
  2. 下一代微处事!微博Service Mesh高可用架构拭魅战
  3. 有赞基于ES的搜刮体系架构是怎样演进的?
  4. 新假造收集架构——Cable先容
  5. 马蜂窝搜刮基于Golang并发署理的一次架构进级
【责任编辑:赵宁宁 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读