文本挖掘----基于OCR的文档关键字提取
媒介紧张添加:有人反馈看不懂。那是由于没有看姐妹篇,《你有没有想到,这样的概念发掘引擎?》。请先阅读本文,再继承看下去! 做了一段时刻的OCR,把大量的图片、PDF处理赏罚成了文本。请留意:这些文本在互联网上属于罕有资源。这些文本早年都放在一个盒子里,现在,用OCR做钥匙打开盒子。取出对象,是好是坏也没人知道。可是,总得取出来看看。 以是,Text Mining就有了用处。我们把这些稀缺数据拿来挖一挖。万一挖到宝了,可就发了。。。 数据可视化后,你将获得这样的功效: 别兴奋,我将给你列出一堆坑。。。。 在本身的微信公家号上,写过一篇文章—-《你有没有想到,这样的概念发掘引擎?》。这篇文章首要是对概念发掘引擎做了简朴的概述,给出了每个步调大抵必要实现奈何的成果。可是,没有涉及到技能和框架的对象。以是专程在CSDN上讲讲技能层面的对象。 OCR处理赏罚图片这是一个很重要的进程—-数据预处理赏罚,直接影响最后的发掘功效。难点有两个:
不要贪图本身能办理这两个题目,请交给专业人士去搞,由于较量头疼。可是对付一样平常的开拓者而言,可能精度要求不那么高的同窗而言,直接用OCR的成熟对象就好,好比Tesseract。 给出一篇文章:《OCR—-Python挪用Tesseract引擎(Ubuntu下)》。参照来做,没有题目的。 文本发掘器材本身写算法去发掘处理赏罚好的文本,的确好笑。。。由于水很深很深。首要的难点:
以是,对付一样平常的开拓者而言,可能公司快速天生而言,用框架吧。保举两款:(1)结巴分词,(2)清华大学的中文分词THUTag。 我行使的是jieba,感受API讲授的好。 操纵指南就不秀了,也没什么可写的。当你装完情形,也许只是这样: # abstract word extract tags_output = jieba.analyse.extract_tags(text,topK=20,withWeight = True) 对,我并没有恶作剧。。。only one code ! 数据可视化数据可视化,这是个可深可浅的活。偶然辰,谁都醒目;偶然辰,必要深知营业逻辑的人才。吓得我都不敢多说一句了。。。 这块也是此刻较量火的BI工程师的职业领域。BI Engineers用什么,我不知道。可是,我用的可视化器材是Echart,百度开源的(PS:支持国产的甜头就是API都是中文的哎。。。)。 Echart3和Echart2整体的成果没有几多改变,可是样式友善势威风凛凛变了许多。抛开版本不说,EChart框架貌似不太得当含有逻辑相关数据的揭示 。做分类功效展示还可以,可是相关图,我只能呵呵。 最近,在实行D3的技能,有空再码。 结语要害词提取也好,概念发掘也好,都没有本质的区别。我做的这个东东,首要是在数据布局上用创新。事实是图片、PDF,不是纯文本。 更多技能交换,接待评述。事实在技能方面照旧个渣渣,以是有差池的处所,接待品评指正。感激! 下面是公家号的二维码,扫一扫存眷更多出色原创内容: (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |