为大型数据集实现快速查找：MySQL MEMORY(HEAP),Memcached或其他

发布时间：2021-01-19 06:53:11 所属栏目：编程来源：网络整理

导读：今朝正在开展一个环绕医学术语SNOMED的项目.被标志的焦点是三个相关数据集,它们的记录长度别离为350,000、110万和130万.我们但愿可以或许快速查询此数据集的数据输入部门,以便在个中具有某种情势或情势的自动完成/提议. 它今朝仅在MySQL MyISAM DB顶用于开拓目标

今朝正在开展一个环绕医学术语SNOMED的项目.被标志的焦点是三个相关数据集,它们的记录长度别离为350,000、110万和130万.我们但愿可以或许快速查询此数据集的数据输入部门,以便在个中具有某种情势或情势的自动完成/提议.

它今朝仅在MySQL MyISAM DB顶用于开拓目标,但我们但愿开始行使一些内存选项.包罗索引在内,当前巨细为30MB 90MB 70MB. MEMORY MySQL Engine和MemCached是显而易见的,以是我的题目是,您会提议行使个中的哪个,可能尚有更好的选择？

假若有所作为,我们首要在应用措施级别行使Python.其它,我们正在运行在一台小型专用处事器上,即将迁徙到4GB DDR2.

编辑：附加信息

我们有乐趣保持提媾和自动完成的速率.对付这些范例的查询器来说,将会有一些很好的示意.被修饰的每个术语凡是具有多个同义词,缩写和首选名称.我们将大量查询此数据集(包罗索引在内的巨细为90MB).我们也正在思量成立一个倒排索引,以加速处理赏罚速率并返回更相干的功效(很多术语很长,“蜕膜基底的整个螺旋状动脉(身材布局)”). Lucene或其他全文搜刮也许是吻合的.

最佳谜底请拜见

> Techniques to make autocomplete on website more responsive
> How to do query auto-completion suggestions in Lucene
> autocomplete server side implementation

有关怎样行使Lucene举办此操纵. Lucene是最靠近行业尺度的全文本搜刮库.它速率快,并提供高质量的功效.可是,把握Lucene必要耗费时刻-您必需处理赏罚很多底层细节.一种更简朴的要领也许是行使Solr,这是一个Lucene子项目,该项目更易于配置,而且可以提供JSON输出can be used for autocomplete.

正如Todd所说,您也可以行使Sphinx.我从未行使过它,但传闻它与MySQL高度集成.我找不到怎样行使Sphinx实现自动完成的成果-大概您应该将此作为单独的题目宣布.

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

MySQL源码安置	运用图形界面从SQL导入
MySQL5.7+keepalived+	windows系统下jsp+mys