加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

消息中文当区域信息标签的抽取

发布时间:2021-01-27 22:25:29 所属栏目:大数据 来源:网络整理
导读:这里首要是基于法则的消息区域提取要领,这里扼要记录一下思绪。 起首我们拥有了区域信息数据库,而且标注了省市的layer层信息。首要思绪是操作nlp库,分词获得标有地名属性词,在于区域数据库匹配。 第一步,提取正文分词获得标注为地名的词语。 第二步,匹

这里首要是基于法则的消息区域提取要领,这里扼要记录一下思绪。
起首我们拥有了区域信息数据库,而且标注了省市的layer层信息。首要思绪是操作nlp库,分词获得标有地名属性词,在于区域数据库匹配。

第一步,提取正文分词获得标注为地名的词语。
第二步,匹配区域数据库。
凭证数据库的分类有
省:一级 市:二级 区、县:三级
算法伪代码:code指当前都市的key,pcode则是其上级都市的key。 case1 :只呈现一个,区域。->列出全部也许的<code,pcode> 譬喻只呈现向阳,则列出<向阳,辽宁>,<向阳,北京> ? ?假如,分词呈现,向阳,北京,南京。则功效为<北京-向阳> <江苏-南京>。 case2:多区域。 for1 依次轮回遍历区域信息列表。
凭证呈现最多的区域,依次列出<code1,pcode1>,<code2,pcode2>..... for2 轮回全部的code1...code2...
if (其余有区域的code便是此pcode) ? ?
则列出<code,pcode>。按照此pcode,查找ppcode. 当下次for1轮回遍历到此pcode的时辰,continue略过。 此进程会产出"code->code->code"名目 (为目表范例)。
else ?
列出自身code,pcode。

项目中行使了FudanNLP做的地名抽取换成其余库也ok,最终结果正确率90%以上。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读