加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一文看懂怎么用Python做数据分析

发布时间:2019-06-26 16:27:58 所属栏目:教程 来源:程序员ACE
导读:常碰着两类伴侣。一类是会爬虫但不知道怎样进一步做数据说明的,一类是泛泛用 Excel 做说明但不太会用 Python 说明的。假如和你很像,那下面这篇体系长文会很得当你,提议先保藏。 Excel 是数据说明中最常用的器材,本文通过 Python 与 excel 的成果比拟介
副问题[/!--empirenews.page--]

常碰着两类伴侣。一类是会爬虫但不知道怎样进一步做数据说明的,一类是泛泛用 Excel 做说明但不太会用 Python 说明的。假如和你很像,那下面这篇体系长文会很得当你,提议先保藏。

Excel 是数据说明中最常用的器材,本文通过 Python 与 excel 的成果比拟先容怎样行使 Python 通过函数式编程完成 excel 中的数据处理赏罚及说明事变。从 1787 页的 pandas 官网文档中总结出最常用的 36 个函数,通过这些函数先容怎样通过 Python 完成数据天生和导入、数据洗濯、预处理赏罚、数据分类、数据筛选、分类 汇总、透视等最常见的操纵。

文章内容共分为 9 个部门目次如下:

一文看懂怎么用 Python 做数据说明

01 天生数据表

第一部门是天生数据表,常见的天生要领有两种,第一种是导入外部数据,第二种是直接写入数据。 Excel 中的文件菜单中提供了获取外部数据的成果,支持数据库和文本文件和页面的多种数据源导入。

一文看懂怎么用 Python 做数据说明

python 支持从多种范例的数据导入。在开始行使 python 举办数据导入前必要先导入 pandas 库,为了利便起见,我们也同时导入 numpy 库。

  1. import numpy as np 
  2. import pandas as pd 

导入数据表

下面别离是从 excel 和 csv 名目文件导入数据并建设数据表的要领。代码是最简模式,内里有许多可选参数配置,譬喻列名称,索引列,数据名目等等。感乐趣的伴侣可以参考 pandas 的

官方文档。

  1. df=pd.DataFrame(pd.read_csv('name.csv',header=1)) 
  2. df=pd.DataFrame(pd.read_excel('name.xlsx')) 

建设数据表

另一种要领是通过直接写入数据来天生数据表,excel 中直接在单位格中输入数据就可以,python 中通过下面的代码来实现。天生数据表的函数是 pandas 库中的 DateFrame 函数,数据表一共有 6 行数据,每行有 6 个字段。在数据中我们特意配置了一些 NA 值和有题目的字段,譬喻包括空格等。后头将在数据洗濯步调举办处理赏罚。后头我们将同一以 DataFrame 的简称 df 来定名数据表。

  1. df = pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006], 
  2.                    "date":pd.date_range('20130102', periods=6), 
  3.                    "city":['Beijing ', 'SH', ' guangzhou ', 'Shenzhen', 'shanghai', 'BEIJING '], 
  4.                    "age":[23,44,54,32,34,32], 
  5.                    "category":['100-A','100-B','110-A','110-C','210-A','130-F'], 
  6.                    "price":[1200,np.nan,2133,5433,np.nan,4432]}, 
  7.                    columns =['id','date','city','category','age','price']) 

这是方才建设的数据表,我们没有配置索引列,price 字段中包括有 NA 值,city 字段中还包括了一些脏数据。

一文看懂怎么用 Python 做数据说明

02 数据表搜查

第二部门是对数据表举办搜查,python 中处理赏罚的数据量凡是会较量大,好比我们之前的文章中先容的纽约出租车数据和 Citibike 的骑行数据,数据量都在万万级,我们无法一览无余的 相识数据表的整体环境,必必要通过一些要领来得到数据表的要害信息。数据表搜查的另一个目标是相识数据的轮廓,譬喻整个数据表的巨细,所占空间,数据名目,是否有空值和一再项和详细的数据内容。为后头的洗濯和预处理赏罚做好筹备。

数据维度(队列)

Excel 中可以通过 CTRL+向下的光标键,和 CTRL+向右的光标键来查察行号和列号。Python 中行使 shape 函数来查察数据表的维度,也就是行数和列数,函数返回的功效(6,6)暗示数据表有 6 行,6 列。下面是详细的代码。

  1. #查察数据表的维度 
  2. df.shape 
  3. (6, 6) 

数据表信息

行使 info 函数查察数据表的整体信息,这里返回的信息较量多,包罗数据维度,列名称,数据名目和所占空间等信息。

  1. #数据表信息 
  2. df.info() 
  3.   
  4. <class 'pandas.core.frame.DataFrame'> 
  5. RangeIndex: 6 entries, 0 to 5 
  6. Data columns (total 6 columns): 
  7. id          6 non-null int64 
  8. date        6 non-null datetime64[ns] 
  9. city        6 non-null object 
  10. category    6 non-null object 
  11. age         6 non-null int64 
  12. price       4 non-null float64 
  13. dtypes: datetime64[ns](1), float64(1), int64(2), object(2) 
  14. memory usage: 368.0+ bytes 

查察数据名目

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读