加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

产品经理需要了解的搜索算法:搜索引擎之倒排索引

发布时间:2017-09-05 13:10:43 所属栏目:建站 来源:人人都是产品经理
导读:副问题#e# 注:互联网期间,信息纷繁海量,人们通过搜刮引擎直达“心中所想”已是常态。那么搜刮引擎到底是怎样高效查找方针内容呢?本文首要先容搜刮引擎里一个较量重要的布局——倒排索引。 一、倒排索引简介 倒排索引(英文:Inverted Index),是一种索

(2)停用词过滤

停用词是指在文档列表中呈现的频数较高且代价不大的词。以英文为例,在英文文档中呈现次数较多的停用词如:”is”、”the”、”I”、“and”、”me”等等;这一类词语在每每呈此刻全部文档中,若以此类词语为term举办索引构建,则会发生多个全量文档索引列表。停用词过滤的行使每每依靠于现实行使场景,要害字查询行使得较为频仍的场景如某一个电商品牌的垂直型搜刮引擎,一个吻合的停用词表显得尤为重要;而对付Web搜刮引擎如百度、Google等,该范例的搜刮引擎面向的查询场景较多,通用性较强,每每不必要停用词过滤。

(3)词条归一化

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读