加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据处理,不可不知的常用工具

发布时间:2021-01-24 19:31:23 所属栏目:大数据 来源:网络整理
导读:网页、PDF里的数据获取,令人头大;更别提数据整理了。在大大都环境下,做数据可视化的我们都难以获得最干净整洁全面的“ready to go”的数据,必要我们在网页中去“挖”,再去其它的平台举办“整理”,下面就先容一些NICAR中被提到的常用器材。 01 网页获取

网页、PDF里的数据获取,令人头大;更别提数据整理了。在大大都环境下,做数据可视化的我们都难以获得最干净整洁全面的“ready to go”的数据,必要我们在网页中去“挖”,再去其它的平台举办“整理”,下面就先容一些NICAR中被提到的常用器材。


01
网页获取数据-非编程方法
A. ? Web Scraper
Web Scraper 是一款用于网页数据索取的谷歌赏识器插件,用户可以自行建设数据抓取打算,呼吁它索取你必要的数据,最终数据可以以csv范例文件导出。
B.? Import.io
Import.io 是一款免费的桌面应用,它可以辅佐用户从大量网页中抓取所需数据,它把每个网页都当成一个可以天生API的数据源。
C. HTML表格插件
? ? a).? Chrome插件
? ? b).? Firefox插件
D.? Down Them All
其它一款用于从网页下载文件的火狐赏识器插件,它包括一些较量简朴的过滤成果,好比用户可以选择只下载包括名字中包括“county”的xls文件可能zip压缩包(*county*.zip)。
?
E. WGET
WGET是一个行使呼吁行的传统而很好用的数据索取方法。假设用户想从一个网站上索取省份信息,每个州都有同一名目标URL,好比 http://sitename.com/state/34??和? http://sitename.com/state/36,用户就将一个包括全部这些url的exl表格存成text文件,这样就可以用wget-ilist.txt来获取所怀孕份信息。
?
F.? XML事迹
许多环境下,网页的数据是以xml的情势架构起来的,这个教程可以辅佐用户试探网页中隐藏的数据布局,搞清晰网页的代码源是怎样被组织起来的。
02
获取PDF中的数据
A.?免费软件

? ? a).?CometDocs是用于从PDF中抓取表格数据最简朴有用的器材。用户可以直接进入网站,上传文件,选择输出文件范例,输入你的邮件地点,完成。

弱点:不能免费处理赏罚图片,必要订购OCR处事。

?

? ? b).?Tabula?是一款你可以直接下载安装到电脑上的免费软件,它可以辅佐你导入PDF文件并输出单份表格。在你导入响应的PDF文件之后,你必要手动将必要的表格框出来,Tabula会试图在保存队列的条件下转化数据。

弱点:Tabula不能做到光学字符辨认,它不如下面会罗列到的贸易措施准确,好比它获取的队列边距不是很精确,必要手动调解。
?
B.?付费措施:

Cogniview和Tabula相同,你可以将必要的表格框起来,可是假如Congniview猜错了,你可以很轻易地调解它的范畴。更棒的是,它有光学字符辨认版本,这样即即是图片它也可以辨认。

ABLE2EXTRACT是纽约时报图像部分钟爱的措施,界面和行使方法和Cogniview都很相同。

弱点:大大都时辰Able2Extract都示意很好,但它的调试体系不如Cogniview。

?

? ? ?c).? ABBY FineReader?
? ? d).? Adobe Acrobat Pro?
? ? e).? Datawatch Monarch是这个系列里的明星软件,但价值不菲。假如你在做一个恒久的项目,而且要从一个很难转换的情势中获取数据,Monarch长短常值得保举的。Monarch在转换陈诉中数据的时辰很是精巧,用户可以自主计划输出表格的情势。
03
整理数据- Open Refine
Open Refine是整理数据方面一款强盛的器材。较量典范的行使案例是当你有一小我私人名、公司名名目不同一的数据时,Open Refine就是很好的选择。在NICAR集会会议中,来自纽约时报的数据库项目编辑 Robert Gebeloff
和Kaas & Mulvad首创人兼CEO? Nils Mulvad对Open Refine行使其自创教程对Open Refine举办了讲授:
教程:

https://github.com/gebelo/nicar2016/blob/master/refine.pdf

帮助数据资料:

https://github.com/gebelo/nicar2016/blob/master/prof.csv

https://github.com/gebelo/nicar2016/blob/master/defendants.xlsx

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读