消息中文当区域信息标签的抽取

发布时间：2021-01-27 22:25:29 所属栏目：大数据来源：网络整理

导读：这里首要是基于法则的消息区域提取要领，这里扼要记录一下思绪。起首我们拥有了区域信息数据库，而且标注了省市的layer层信息。首要思绪是操作nlp库，分词获得标有地名属性词，在于区域数据库匹配。第一步，提取正文分词获得标注为地名的词语。第二步，匹

这里首要是基于法则的消息区域提取要领，这里扼要记录一下思绪。

起首我们拥有了区域信息数据库，而且标注了省市的layer层信息。首要思绪是操作nlp库，分词获得标有地名属性词，在于区域数据库匹配。

第一步，提取正文分词获得标注为地名的词语。

第二步，匹配区域数据库。

凭证数据库的分类有

省：一级市：二级区、县：三级
算法伪代码：code指当前都市的key,pcode则是其上级都市的key。 case1 ：只呈现一个,区域。->列出全部也许的<code,pcode> 譬喻只呈现向阳，则列出<向阳，辽宁>,<向阳，北京> ? ?假如，分词呈现，向阳，北京，南京。则功效为<北京-向阳> <江苏-南京>。 case2：多区域。 for1 依次轮回遍历区域信息列表。

凭证呈现最多的区域，依次列出<code1，pcode1>，<code2,pcode2>..... for2 轮回全部的code1...code2...
if (其余有区域的code便是此pcode) ? ?

则列出<code，pcode>。按照此pcode,查找ppcode. 当下次for1轮回遍历到此pcode的时辰，continue略过。此进程会产出"code->code->code"名目（为目表范例）。

else ?

列出自身code，pcode。

项目中行使了FudanNLP做的地名抽取换成其余库也ok，最终结果正确率90%以上。

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智