文本挖掘----基于OCR的文档关键字提取

发布时间：2021-05-29 16:21:52 所属栏目：大数据来源：网络整理

导读：媒介紧张添加：有人反馈看不懂。那是由于没有看姐妹篇，《你有没有想到，这样的概念发掘引擎？》。请先阅读本文，再继承看下去！做了一段时刻的OCR，把大量的图片、PDF处理赏罚成了文本。请留意：这些文本在互联网上属于罕有资源。这些文本早年都放在一个盒子

媒介

紧张添加：有人反馈看不懂。那是由于没有看姐妹篇，《你有没有想到，这样的概念发掘引擎？》。请先阅读本文，再继承看下去！

做了一段时刻的OCR，把大量的图片、PDF处理赏罚成了文本。请留意：这些文本在互联网上属于罕有资源。这些文本早年都放在一个盒子里，现在，用OCR做钥匙打开盒子。取出对象，是好是坏也没人知道。可是，总得取出来看看。

以是，Text Mining就有了用处。我们把这些稀缺数据拿来挖一挖。万一挖到宝了，可就发了。。。

数据可视化后，你将获得这样的功效：

数据可视化，谷震平的专栏

别兴奋，我将给你列出一堆坑。。。。

在本身的微信公家号上，写过一篇文章—-《你有没有想到，这样的概念发掘引擎？》。这篇文章首要是对概念发掘引擎做了简朴的概述，给出了每个步调大抵必要实现奈何的成果。可是，没有涉及到技能和框架的对象。以是专程在CSDN上讲讲技能层面的对象。

这是一个很重要的进程—-数据预处理赏罚，直接影响最后的发掘功效。难点有两个：

不要贪图本身能办理这两个题目，请交给专业人士去搞，由于较量头疼。可是对付一样平常的开拓者而言，可能精度要求不那么高的同窗而言，直接用OCR的成熟对象就好，好比Tesseract。

给出一篇文章：《OCR—-Python挪用Tesseract引擎(Ubuntu下)》。参照来做，没有题目的。

本身写算法去发掘处理赏罚好的文本，的确好笑。。。由于水很深很深。首要的难点：

以是，对付一样平常的开拓者而言，可能公司快速天生而言，用框架吧。保举两款：（1）结巴分词，（2）清华大学的中文分词THUTag。

我行使的是jieba，感受API讲授的好。

操纵指南就不秀了，也没什么可写的。当你装完情形，也许只是这样：

# abstract word extract
tags_output = jieba.analyse.extract_tags(text,topK=20,withWeight = True)

对，我并没有恶作剧。。。only one code !

数据可视化，这是个可深可浅的活。偶然辰，谁都醒目；偶然辰，必要深知营业逻辑的人才。吓得我都不敢多说一句了。。。

这块也是此刻较量火的BI工程师的职业领域。BI Engineers用什么，我不知道。可是，我用的可视化器材是Echart，百度开源的（PS：支持国产的甜头就是API都是中文的哎。。。）。

Echart3和Echart2整体的成果没有几多改变，可是样式友善势威风凛凛变了许多。抛开版本不说，EChart框架貌似不太得当含有逻辑相关数据的揭示。做分类功效展示还可以，可是相关图，我只能呵呵。

最近，在实行D3的技能，有空再码。

要害词提取也好，概念发掘也好，都没有本质的区别。我做的这个东东，首要是在数据布局上用创新。事实是图片、PDF，不是纯文本。

更多技能交换，接待评述。事实在技能方面照旧个渣渣，以是有差池的处所，接待品评指正。感激！

下面是公家号的二维码，扫一扫存眷更多出色原创内容：

谷震平的专栏微信公家号二维码

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智