[转]文本相似性算法:simhash/minhash/余弦算法
发布时间:2021-01-19 21:47:26 所属栏目:大数据 来源:网络整理
导读:数据发掘之lsh(局部敏感hash) minhash、simhash 在项目中遇到这样的题目: 互联网用户天天会会见许多的网页,假设两个用户会见过沟通的网页,声名两个用户相似,沟通的网页越多,用户相似度越高,这就是典范的CF中的user-based保举算法。 算法的道理很简朴
????? ?措施中做了两小的改造,以加速服从:
????? ?1. 只将汉字作为向量,其他的如标点,数字等标记不处理赏罚;2. 在HashMap中存放汉字和其在文本中对付的个数时,先将单个汉字通过GB2312编码转换成数字,再存放。 ????? ?最后写了个测试,按照两种差异的算法比拟下时刻,下面是测试功效: ????? ?余弦定理算法:doc1 与 doc2 相似度为:0.9954971,耗时:22mm ????? ?间隔编辑算法:doc1 与 doc2 相似度为:0.99425095,耗时:322mm ????? ?可收服从有明明进步,算法伟大度大抵为:document1.length + document2.length。 ? ? ? ? 文章来历:?http://my.oschina.net/BreathL/blog/42477 PHP实现余弦相似度算法(编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |