[转]文内情似性算法:simhash/minhash/余弦算法
发布时间:2021-01-20 16:23:23 所属栏目:大数据 来源:网络整理
导读:数据发掘之lsh(局部敏感hash) minhash、simhash 在项目中遇到这样的题目: 互联网用户天天会会见许多的网页,假设两个用户会见过沟通的网页,声名两个用户相似,沟通的网页越多,用户相似度越高,这就是典范的CF中的user-based保举算法。 算法的道理很简朴
感激您做的simhash库,感受会很利便。 有关求二进制中1的个数,着实有各类O(1)的实现。可以参考这个处所:http://stackoverflow.com/a/14682688 simhash 实现的工程项目
首要是针对中文文档,也就是此项目举办simhash之前同时还举办了分词和要害词的抽取。 比拟其他算法『百度的去重算法』 百度的去重算法最简朴,就是直接找出此文章的最长的n句话,做一遍hash署名。n一样平常取3。 工程实现巨简朴,听说精确率和召回率都能达到80%以上。 『shingle算法』 shingle道理略伟大,不细说。 shingle算法我以为过于学院派,对付工程实现不足友爱,速率太慢,根基上无法处理赏罚海量数据。 『其他算法』 详细看微博上的接头 参考
来历:http://yanyiwu.com/work/2014/01/30/simhash-shi-xian-xiang-jie.html 实现文内情似度算法(余弦定理) (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐
热点阅读