加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 电商 > 正文

链接分析算法之HillTop算法

发布时间:2020-11-02 14:25:10 所属栏目:电商 来源:网络整理
导读:Hilltop算法是由Krishna Baharat 在2000年阁下研究的,于2001年申请专利,可是有许多人觉得Hilltop算法是由谷歌研究的。

Hilltop综合思量以上三类身分,拟合出打分函数来对“专家页面”是否与用户查询相干举办打分,选出相干性分值足够高的“专家页面”,以举办下一步调操纵,即对“方针页面”举办相干性计较。

步调二:方针页面排序

Hilltop算法包括一个根基假设,即以为一个“方针页面”假如是满意用户查询的高质量搜刮功效,其充实须要前提是该“方针页面”有高质量“专家页面”链接指向。然而,这个假设并不老是创立,好比有的“专家页面”的链接所指向的“方针页面”也许与用户查询并非亲近相干。以是,Hilltop算法在这个阶段必要对“专家页面”的出链细心举办甄别,以担保选出那些和查询亲近相干的方针页面。

Hilltop在本阶段是基于“专家页面”和“方针页面”之间的链接相关来举办的,在此基本上,将“专家页面”的得分转达给有链接相关的“方针页面”。转达分值之前,起首必要对链接相关举办清算,可以或许得到“专家页面”分值的“方针页面”必要满意以下两点要求:

前提1:至少必要两个“专家页面”有链接指向“方针页面”,并且这两个专家页面不能是“从属组织页面”,即不能来自统一网站或相干网站。假如是“从属组织页面”,则只能保存一个链接,丢弃权值低的谁人链接;

前提2:“专家页面”和所指向的“方针页面”也必要切合必然要求,即这两个页面也不能是“从属组织页面”;

在步调一,给定用户查询,Hilltop算法已经得到相干的“专家页面”及其与查询的相干度得分,在此基本上,怎样对“方针页面”的相干性打分?上面列出的前提1指出,可以或许得到转达分值的“方针页面”必然有多个“专家页面”链接指向,以是“方针页面”所得到的总撒播分值是每个有链接指向的“专家页面”所转达分值之和。而计较个中某个“专家页面”转达给“方针页面”权值的时辰是这么计较的:

a. 找到“专家页面” 中那些可以或许支配方针页面的“要害片断”荟萃S;

b. 统计S中包括用户查询词的“要害片断”个数T,T越大转达的权值越大;

c.“专家页面”转达给“方针页面”的分值为:E*T,E为专家页面自己在第一阶段计较获得的相干得分,T为b步调计较的分值,

我们以图6-25的具编制子来声名。假设“专家页面”荟萃内存在一个网页P,其问题为:“奥巴马会见中国”,网页内容由一段

标签笔墨和其它一个单独的链接锚笔墨构成。该页面包括三个出链,个中两个指向“方针页面荟萃”中的网页,其它一个指向网页。出链对应的锚笔墨别离为:“奥巴马”,“中国”和“中国率领人”。

图6-25 Hilltop算法分值转达

从图示的链接相关可以看出,网页P中可以或许支配这个方针页面的“要害片断”荟萃包罗:{中国率领人,中国,

奥巴马会见中国

,问题:奥巴马会见中国}。而可以或许支配方针页面的“要害片断”荟萃包罗:{奥巴马,

奥巴马会见中国

,问题:奥巴马会见中国}。

接下来我们说明“专家页面”P在吸取到查询时,是奈何将分值转达给与其有链接相关的“方针页面”的。假设体系吸取到的查询哀求为“奥巴马”,在吸取到查询后,体系起首按照上述章节所述,找出“专家页面”并给以分值,而网页P是作为“专家页面”个中一个页面,并得到了响应的分值S,我们重点存眷分值撒播步调。

对付查询“奥巴马”来说,网页P中包括这个查询词的“要害片断”荟萃为:{奥巴马,

奥巴马会见中国

,问题:奥巴马会见中国},如上所述,这三个“要害片断”都可以或许支配页面,以是网页P转达给的分值为S*3。而对付方针页面来说,这三个“要害片断”中只有{

奥巴马会见中国

,问题:奥巴马会见中国}这两个可以或许支配方针页面,以是网页P转达给的分值为S*2。

对付包括多个查询词的用户哀求,则每个查询词单独如上计较,将多个查询词的转达分值累加即可。

5. Hilltop在应用中不敷

专家页面的搜刮和确定对算法起要害浸染,专家页面的质量抉择了算法的精确性;而专家页面的质量和公正性在必然水平上难以担保。Hiltop忽略了大大都非专家页面的影响。

在Hilltop的原型体系中,专家页面只占到整个页面的1.79%,不能全面反应民意。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读