加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

[转]文内情似性算法:simhash/minhash/余弦算法

发布时间:2021-01-20 16:23:23 所属栏目:大数据 来源:网络整理
导读:数据发掘之lsh(局部敏感hash) minhash、simhash 在项目中遇到这样的题目: 互联网用户天天会会见许多的网页,假设两个用户会见过沟通的网页,声名两个用户相似,沟通的网页越多,用户相似度越高,这就是典范的CF中的user-based保举算法。 算法的道理很简朴

最小哈希法

最小哈希道理先容

  1. MinHash是基于Jaccard Index相似度(海量数据不行行)的算法,一种降维的要领A,B 两个荟萃:A = {s1,s3,s6,s8,s9}? B = {s3,s4,s7,s10}
  2. MinHash的根基道理:在A∪B这个大的随机域里,选中的元素落在A∩B这个地区的概率,这个概率就便是Jaccard的相似度

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读