加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

文本挖掘----基于OCR的文档关键字提取

发布时间:2021-05-29 16:21:52 所属栏目:大数据 来源:网络整理
导读:媒介 紧张添加:有人反馈看不懂。那是由于没有看姐妹篇,《你有没有想到,这样的概念发掘引擎?》。请先阅读本文,再继承看下去! 做了一段时刻的OCR,把大量的图片、PDF处理赏罚成了文本。请留意:这些文本在互联网上属于罕有资源。这些文本早年都放在一个盒子

媒介


紧张添加:有人反馈看不懂。那是由于没有看姐妹篇,《你有没有想到,这样的概念发掘引擎?》。请先阅读本文,再继承看下去!

做了一段时刻的OCR,把大量的图片、PDF处理赏罚成了文本。请留意:这些文本在互联网上属于罕有资源。这些文本早年都放在一个盒子里,现在,用OCR做钥匙打开盒子。取出对象,是好是坏也没人知道。可是,总得取出来看看。

以是,Text Mining就有了用处。我们把这些稀缺数据拿来挖一挖。万一挖到宝了,可就发了。。。

数据可视化后,你将获得这样的功效:

数据可视化,谷震平的专栏

别兴奋,我将给你列出一堆坑。。。。

在本身的微信公家号上,写过一篇文章—-《你有没有想到,这样的概念发掘引擎?》。这篇文章首要是对概念发掘引擎做了简朴的概述,给出了每个步调大抵必要实现奈何的成果。可是,没有涉及到技能和框架的对象。以是专程在CSDN上讲讲技能层面的对象。


OCR处理赏罚图片


这是一个很重要的进程—-数据预处理赏罚,直接影响最后的发掘功效。难点有两个:

  • 图片的机关、PDF文件的版面辨认
  • OCR识此外精度,一样平常城市有错误字符呈现

不要贪图本身能办理这两个题目,请交给专业人士去搞,由于较量头疼。可是对付一样平常的开拓者而言,可能精度要求不那么高的同窗而言,直接用OCR的成熟对象就好,好比Tesseract。

给出一篇文章:《OCR—-Python挪用Tesseract引擎(Ubuntu下)》。参照来做,没有题目的。


文本发掘器材


本身写算法去发掘处理赏罚好的文本,的确好笑。。。由于水很深很深。首要的难点:

  • 文本发掘常用算法本技艺写,耗时
  • 语料库(出格是中文)
  • 句法说明、语义说明

以是,对付一样平常的开拓者而言,可能公司快速天生而言,用框架吧。保举两款:(1)结巴分词,(2)清华大学的中文分词THUTag。

我行使的是jieba,感受API讲授的好。

操纵指南就不秀了,也没什么可写的。当你装完情形,也许只是这样:

# abstract word extract
tags_output = jieba.analyse.extract_tags(text,topK=20,withWeight = True)

对,我并没有恶作剧。。。only one code !


数据可视化


数据可视化,这是个可深可浅的活。偶然辰,谁都醒目;偶然辰,必要深知营业逻辑的人才。吓得我都不敢多说一句了。。。

这块也是此刻较量火的BI工程师的职业领域。BI Engineers用什么,我不知道。可是,我用的可视化器材是Echart,百度开源的(PS:支持国产的甜头就是API都是中文的哎。。。)。

Echart3和Echart2整体的成果没有几多改变,可是样式友善势威风凛凛变了许多。抛开版本不说,EChart框架貌似不太得当含有逻辑相关数据的揭示 。做分类功效展示还可以,可是相关图,我只能呵呵。

最近,在实行D3的技能,有空再码。


结语


要害词提取也好,概念发掘也好,都没有本质的区别。我做的这个东东,首要是在数据布局上用创新。事实是图片、PDF,不是纯文本。

更多技能交换,接待评述。事实在技能方面照旧个渣渣,以是有差池的处所,接待品评指正。感激!

下面是公家号的二维码,扫一扫存眷更多出色原创内容:

谷震平的专栏 微信公家号  二维码

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读