加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

[tf-idf]百度分词快排算法

发布时间:2020-11-15 10:34:25 所属栏目:创业 来源:网络整理
导读:做为SEO行业老鸟应该传闻过TF-IDF算法,TF-IDF算法属于搜刮引擎中的焦点部门。

  短视频,自媒体,达人种草一站处事

做为SEO行业老鸟应该传闻过TF-IDF算法,TF-IDF算法属于搜刮引擎中的焦点部门。TF-IDF算法是增进相干词的包围率,以及高优机关要害词密度,从而在百度谷歌等搜刮引擎内容质量这一项上的排名加分,获取超高分值。

最近在网上有几篇TF-IDF算法道理及公式本文将深入为各人理会,有乐趣请往下深度阅读。

一,什么是TF-IDF

先来看百度百科对TF-IDF的表明:

“TF-IDF是一种统计要领,用以评估一字词对付一个文件集或一个语料库中的个中一份文件的重要水平。字词的重要性跟着它在文件中呈现的次数成正比增进,但同时会跟着它在语料库中呈现的频率成反比降落。TF-IDF加权的各类情势常被搜刮引擎应用,作为文件与用户查询之间相干水平的怀抱或评级。”文章链接:https://baike.baidu.com/item/tf-idf

若是说我们在百度上搜刮“生果”这个词,百度爬虫抓取的网站内容有下面5个,你认为哪个内容排名第一?

内容1:生果有生果,生果,生果,生果,生果

内容2:生果有苹果,桃子,西瓜,菠萝,梨子

内容3:蔬菜都很好吃,我最爱吃茄子了

内容4:苹果,梨子都是很好吃的生果

内容5:好吃的生果有西瓜,苹果,葡萄,其他生果尚有菠萝,猕猴桃

信托许多民气内里有了谜底,各人凭直觉,内容2跟内容5应该排名靠前,内容5很也许是第1,内容2是排名第2。

着实凭证TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请各人跟上我的步骤。

二,TF-IDF算法的计较步调

第1步:计较逆文档频率

我们先统计各个词语被包括的文章数。好比“生果”被4篇文章(内容1、2、4、5)引用,4就是“生果”的逆文档频率。

分词后,各个单词的逆文档频率如下:

生果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1计较逆文档频率

PS:IDF=log(语料库中的文件总数/包括词语t的文件数量),为了便于领略,这里做了精简。

凭证我们的直觉,假如一篇文章把逆文档频率最高的前面的词都包括了,声名这篇文章内容更贴实用户意图,更受到搜刮引擎喜好。回到例子,"生果、苹果"是本例中重要性最高的2个词,假如内容中包括“生果、苹果”,那么这篇内容质量就越好。

以是把包括“生果、苹果”的内容拿出来,就是较量靠谱的内容了:

内容2:生果有苹果,桃子,西瓜,菠萝,梨子

内容4:苹果,梨子都是很好吃的生果

内容5:好吃的生果有西瓜,苹果,葡萄,其他生果尚有菠萝,猕猴桃

第2步:计较词频(TF)

我们把内容1、内容3砍掉了,剩下的内容2、内容4、内容5怎么排序。我们想一下,一个词语在内容中呈现的次数越高,也声名这个词语对这篇文章更重要。回到本例,“生果”是我们的焦点词,那么由于内容5中呈现“生果”两次,内容2、内容4次数是1,那么内容5胜出。最后的排序功效如下

内容5:好吃的生果有西瓜,苹果,葡萄,其他生果尚有菠萝,猕猴桃(第一名)

内容2:生果有苹果,桃子,西瓜,菠萝,梨子(第二名)

内容4:苹果,梨子都是很好吃的生果(第三名)

内容1:生果有生果,生果,生果,生果,生果(相干度不足,被剔除)

内容3:蔬菜都很好吃,我最爱吃茄子了(相干度不足,被剔除)

以上是砍了又砍的TF-IDF算法简化解读版,真实的TFIDF算法比这个要正规伟大许多,这里只是让各人get到重点,目标就到达了。

TF-IDF对SEO很是重要!

TF-IDF对SEO很是很是很是重要,重要的工作说三遍!

我们可以看到,TFIDF算法,不只可以权衡要害词对页面的重要性,更能权衡文章的广度相干性。对付百度、360、google来说,TFIDF算法的呈现屏障了一大批用要害词密度来获取排名的SEO小白,同时晋升了搜刮质量啊,真是一箭双雕。

百度百科内里说了:“除了TF-IDF以外,因特网上的搜刮引擎还会行使基于链接说明的评级要领,以确定文件在征采功效中呈现的次序。”。意思是什么?你排名可以由下面的公式抉择。文章得分=TFIDF得分+链接得分,百度搜刮引擎在用TFIDF!!

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读