[转]文本相似性算法：simhash/minhash/余弦算法

发布时间：2021-01-19 21:47:26 所属栏目：大数据来源：网络整理

导读：数据发掘之lsh（局部敏感hash） minhash、simhash 在项目中遇到这样的题目：互联网用户天天会会见许多的网页，假设两个用户会见过沟通的网页，声名两个用户相似，沟通的网页越多，用户相似度越高，这就是典范的CF中的user-based保举算法。算法的道理很简朴

????? ?措施中做了两小的改造，以加速服从：

????? ?1. 只将汉字作为向量，其他的如标点，数字等标记不处理赏罚；2. 在HashMap中存放汉字和其在文本中对付的个数时，先将单个汉字通过GB2312编码转换成数字，再存放。

????? ?最后写了个测试，按照两种差异的算法比拟下时刻，下面是测试功效：

????? ?余弦定理算法：doc1 与 doc2 相似度为：0.9954971,耗时：22mm

????? ?间隔编辑算法：doc1 与 doc2 相似度为：0.99425095,耗时：322mm

????? ?可收服从有明明进步，算法伟大度大抵为：document1.length + document2.length。

? ? ? ?

文章来历：?http://my.oschina.net/BreathL/blog/42477

PHP实现余弦相似度算法

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智