加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程 > 正文

php – 庞大的列表中的相同名称

发布时间:2021-03-13 21:50:15 所属栏目:编程 来源:网络整理
导读:我有5万家公司的数据库,不绝更新(每月200个). 一再内容是一个庞大的题目,由于名称并不老是严酷/正确: “超等1市肆” “超等一店” “超等1市肆” 编辑:另一个例子也许必要差异的要领: “Amys Pizza” “Amy and Company的有机披萨” 我们必要器材来扫描数

我有5万家公司的数据库,不绝更新(每月200个).

一再内容是一个庞大的题目,由于名称并不老是严酷/正确:
“超等1市肆”
“超等一店”
“超等1市肆”

编辑:另一个例子……也许必要差异的要领:
“Amy’s Pizza”< ---> “Amy and Company的有机披萨”

我们必要器材来扫描数据以探求相似的名称.
我对Levenshtein Distance和LCS有一些履历,但假如2个字符串相似,它们可以很好地举办较量…
在这里,我必需扫描50 000个名称,每个也许是每个,并在哪里计较…整体相似性评级……

我必要提议怎样进攻这个题目,预期的功效是有一个列表与10-20组很是相似的名称,并也许进一法式整迅速度以得到更多功效.

最佳谜底 我有一年前阁下的相同题目,假如我记得很清晰,我办理了(或多或少)行使similar_text和soundex,正如其他人在评述中所说.像这样的对象:

在我的环境下,行使66%的百分比来确定公司是沟通的(在这种环境下,不要插入数据库,但发送电子邮件给我检察,并搜查是否正确).

颠末几个月的办理方案,我抉择为公司行使某种奇异的代码(在我的案例中是CIF,由于西班牙的公司是唯一无二的).

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读