81个开源大数据处理赏罚器材汇总（下），包罗日记网络体系/集群打点/

发布时间：2021-02-26 19:22:27 所属栏目：大数据来源：网络整理

导读：上一部门：http://my.oschina.net/u/2391658/blog/711016 第二部门首要网络清算的内容首要有日记网络体系、动静体系、漫衍式处事、集群打点、RPC、基本办法、搜刮引擎、Iaas和监控打点等大数据开源器材。 ? 日记网络体系一、Facebook?Scribe 孝顺者：Faceb

Nutch为我们提供了这样一个差异的选择. 相对付那些商用的搜刮引擎,Nutch作为开放源代码搜刮引擎将会越发透明,从而更值得各人相信. 此刻全部首要的搜刮引擎都回收私有的排序算法,而不会表明为什么一个网页会排在一个特定的位置. 除此之外,有的搜刮引擎依照网站所付的用度,而不是按照它们自己的代价举办排序. 与它们差异,Nucth没有什么必要遮盖,也没有念头去扭曲搜刮的功效. Nutch将尽本身最大的全力为用户提供最好的搜刮功效.

Nutch今朝最新的版本为version v2.2.1。

官网：https://nutch.apache.org/

二、Lucene

开拓者：Doug Cutting（Hadoop之父，你懂的）

简介：Lucene是apache软件基金会4 jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎器材包，即它不是一个完备的全文检索引擎，而是一个全文检索引擎的架构，提供了完备的查询引擎和索引引擎，部门文天职析引擎（英文与德文两种西方说话）。Lucene的目标是为软件开拓职员提供一个简朴易用的器材包，以利便的在方针体系中实现全文检索的成果，可能是以此为基本成立起完备的全文检索引擎。

81个开源大数据处理赏罚器材汇总（下），包罗日记网络体系/集群打点/

官网：http://lucene.apache.org/

三、SolrCloud

简介：SolrCloud是Solr4.0版本往后基于Solr和Zookeeper的漫衍式搜刮方案。SolrCloud是Solr的基于Zookeeper一种陈设方法。Solr可以以多种方法陈设，譬喻单机方法，多机Master-Slaver方法。

道理图：

81个开源大数据处理赏罚器材汇总（下），包罗日记网络体系/集群打点/

SolrCloud有几个特色成果：

齐集式的设置信息行使ZK举办齐集设置。启动时可以指定把Solr的相干设置文件上传

Zookeeper，多呆板共用。这些ZK中的设置不会再拿到当地缓存，Solr直接读取ZK中的设置信息。设置文件的变换，全部呆板都可以感知到。其它，Solr的一些使命也是通过ZK作为前言宣布的。目标是为了容错。吸取到使命，但在执利用命时瓦解的呆板，在重启后，可能集群选出候选者时，可以再次执行这个未完成的使命。

自动容错SolrCloud对索引分片，并对每个分片建设多个Replication。每个Replication都可以对外提供处事。一个Replication挂掉不会影响索引处事。更强盛的是，它还能自动的在其余呆板上帮你把失败呆板上的索引Replication重建并投入行使。

近及时搜刮当即推送式的replication（也支持慢推送）。可以在秒内检索到新插手索引。

查询时自动负载平衡SolrCloud索引的多个Replication可以漫衍在多台呆板上，平衡查询压力。假如查询压力大，可以通过扩展呆板，增进Replication来减缓。

自动分发的索引和索引分片发送文档到任何节点，它城市转发到正确节点。

事宜日记事宜日记确保更新无丢失，纵然文档没有索引到磁盘。

四、Solr

简介：Solr是一个独立的企业级搜刮应用处事器，它对外提供相同于Web-service的API接口。用户可以通过http哀求，向搜刮引擎处事器提交必然名目标XML文件，天生索引；也可以通过Http Get操纵提出查找哀求，并获得XML名目标返回功效。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

9/13

首页

尾页

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智