81个开源大数据处理赏罚器材汇总(下),包罗日记网络体系/集群打点/
Nutch为我们提供了这样一个差异的选择. 相对付那些商用的搜刮引擎,Nutch作为开放源代码 搜刮引擎将会越发透明,从而更值得各人相信. 此刻全部首要的搜刮引擎都回收私有的排序算法,而不会表明为什么一个网页会排在一个特定的位置. 除此之外,有的搜刮引擎依照网站所付的 用度,而不是按照它们自己的代价举办排序. 与它们差异,Nucth没有什么必要遮盖,也没有 念头去扭曲搜刮的功效. Nutch将尽本身最大的全力为用户提供最好的搜刮功效. Nutch今朝最新的版本为version v2.2.1。 官网:https://nutch.apache.org/ 二、Lucene开拓者:Doug Cutting(Hadoop之父,你懂的) 简介:Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎器材包,即它不是一个完备的全文检索引擎,而是一个全文检索引擎的架构,提供了完备的查询引擎和索引引擎,部门文天职析引擎(英文与德文两种西方说话)。Lucene的目标是为软件开拓职员提供一个简朴易用的器材包,以利便的在方针体系中实现全文检索的成果,可能是以此为基本成立起完备的全文检索引擎。 官网:http://lucene.apache.org/ 三、SolrCloud简介:SolrCloud是Solr4.0版本往后基于Solr和Zookeeper的漫衍式搜刮方案。SolrCloud是Solr的基于Zookeeper一种陈设方法。Solr可以以多种方法陈设,譬喻单机方法,多机Master-Slaver方法。 道理图: SolrCloud有几个特色成果: 齐集式的设置信息行使ZK举办齐集设置。启动时可以指定把Solr的相干设置文件上传 Zookeeper,多呆板共用。这些ZK中的设置不会再拿到当地缓存,Solr直接读取ZK中的设置信息。设置文件的变换,全部呆板都可以感知到。其它,Solr的一些使命也是通过ZK作为前言宣布的。目标是为了容错。吸取到使命,但在执利用命时瓦解的呆板,在重启后,可能集群选出候选者时,可以再次执行这个未完成的使命。 自动容错SolrCloud对索引分片,并对每个分片建设多个Replication。每个Replication都可以对外提供处事。一个Replication挂掉不会影响索引处事。更强盛的是,它还能自动的在其余呆板上帮你把失败呆板上的索引Replication重建并投入行使。 近及时搜刮当即推送式的replication(也支持慢推送)。可以在秒内检索到新插手索引。 查询时自动负载平衡SolrCloud索引的多个Replication可以漫衍在多台呆板上,平衡查询压力。假如查询压力大,可以通过扩展呆板,增进Replication来减缓。 自动分发的索引和索引分片发送文档到任何节点,它城市转发到正确节点。 事宜日记事宜日记确保更新无丢失,纵然文档没有索引到磁盘。 四、Solr简介:Solr是一个独立的企业级搜刮应用处事器,它对外提供相同于Web-service的API接口。用户可以通过http哀求,向搜刮引擎处事器提交必然名目标XML文件,天生索引;也可以通过Http Get操纵提出查找哀求,并获得XML名目标返回功效。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |