消息中文当区域信息标签的抽取
发布时间:2021-01-27 22:25:29 所属栏目:大数据 来源:网络整理
导读:这里首要是基于法则的消息区域提取要领,这里扼要记录一下思绪。 起首我们拥有了区域信息数据库,而且标注了省市的layer层信息。首要思绪是操作nlp库,分词获得标有地名属性词,在于区域数据库匹配。 第一步,提取正文分词获得标注为地名的词语。 第二步,匹
这里首要是基于法则的消息区域提取要领,这里扼要记录一下思绪。
起首我们拥有了区域信息数据库,而且标注了省市的layer层信息。首要思绪是操作nlp库,分词获得标有地名属性词,在于区域数据库匹配。
第一步,提取正文分词获得标注为地名的词语。
第二步,匹配区域数据库。
凭证数据库的分类有
省:一级
市:二级
区、县:三级
算法伪代码:code指当前都市的key,pcode则是其上级都市的key。 case1 :只呈现一个,区域。->列出全部也许的<code,pcode> 譬喻只呈现向阳,则列出<向阳,辽宁>,<向阳,北京> ? ?假如,分词呈现,向阳,北京,南京。则功效为<北京-向阳> <江苏-南京>。 case2:多区域。 for1 依次轮回遍历区域信息列表。 凭证呈现最多的区域,依次列出<code1,pcode1>,<code2,pcode2>..... for2 轮回全部的code1...code2...if (其余有区域的code便是此pcode) ? ? 则列出<code,pcode>。按照此pcode,查找ppcode. 当下次for1轮回遍历到此pcode的时辰,continue略过。 此进程会产出"code->code->code"名目 (为目表范例)。 else ? 列出自身code,pcode。 项目中行使了FudanNLP做的地名抽取换成其余库也ok,最终结果正确率90%以上。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |