一文看懂怎么用Python做数据分析
副问题[/!--empirenews.page--]
常碰着两类伴侣。一类是会爬虫但不知道怎样进一步做数据说明的,一类是泛泛用 Excel 做说明但不太会用 Python 说明的。假如和你很像,那下面这篇体系长文会很得当你,提议先保藏。 Excel 是数据说明中最常用的器材,本文通过 Python 与 excel 的成果比拟先容怎样行使 Python 通过函数式编程完成 excel 中的数据处理赏罚及说明事变。从 1787 页的 pandas 官网文档中总结出最常用的 36 个函数,通过这些函数先容怎样通过 Python 完成数据天生和导入、数据洗濯、预处理赏罚、数据分类、数据筛选、分类 汇总、透视等最常见的操纵。 文章内容共分为 9 个部门目次如下: ![]() 01 天生数据表 第一部门是天生数据表,常见的天生要领有两种,第一种是导入外部数据,第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的成果,支持数据库和文本文件和页面的多种数据源导入。 ![]() python 支持从多种范例的数据导入。在开始行使 python 举办数据导入前必要先导入 pandas 库,为了利便起见,我们也同时导入 numpy 库。
导入数据表 下面别离是从 excel 和 csv 名目文件导入数据并建设数据表的要领。代码是最简模式,内里有许多可选参数配置,譬喻列名称,索引列,数据名目等等。感乐趣的伴侣可以参考 pandas 的 官方文档。
建设数据表 另一种要领是通过直接写入数据来天生数据表,excel 中直接在单位格中输入数据就可以,python 中通过下面的代码来实现。天生数据表的函数是 pandas 库中的 DateFrame 函数,数据表一共有 6 行数据,每行有 6 个字段。在数据中我们特意配置了一些 NA 值和有题目的字段,譬喻包括空格等。后头将在数据洗濯步调举办处理赏罚。后头我们将同一以 DataFrame 的简称 df 来定名数据表。
这是方才建设的数据表,我们没有配置索引列,price 字段中包括有 NA 值,city 字段中还包括了一些脏数据。 ![]() 02 数据表搜查 第二部门是对数据表举办搜查,python 中处理赏罚的数据量凡是会较量大,好比我们之前的文章中先容的纽约出租车数据和 Citibike 的骑行数据,数据量都在万万级,我们无法一览无余的 相识数据表的整体环境,必必要通过一些要领来得到数据表的要害信息。数据表搜查的另一个目标是相识数据的轮廓,譬喻整个数据表的巨细,所占空间,数据名目,是否有空值和一再项和详细的数据内容。为后头的洗濯和预处理赏罚做好筹备。 数据维度(队列) Excel 中可以通过 CTRL+向下的光标键,和 CTRL+向右的光标键来查察行号和列号。Python 中行使 shape 函数来查察数据表的维度,也就是行数和列数,函数返回的功效(6,6)暗示数据表有 6 行,6 列。下面是详细的代码。
数据表信息 行使 info 函数查察数据表的整体信息,这里返回的信息较量多,包罗数据维度,列名称,数据名目和所占空间等信息。
查察数据名目 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |