一文看懂怎么用Python做数据分析

发布时间：2019-06-26 16:27:58 所属栏目：教程来源：程序员ACE

导读：常碰着两类伴侣。一类是会爬虫但不知道怎样进一步做数据说明的，一类是泛泛用 Excel 做说明但不太会用 Python 说明的。假如和你很像，那下面这篇体系长文会很得当你，提议先保藏。 Excel 是数据说明中最常用的器材，本文通过 Python 与 excel 的成果比拟介

Rename 是变动列名称的函数，我们未来数据表中的 category 列变动为 category-size。下面是详细的代码和变动后的功效。

#变动列名称 
df.rename(columns={'category': 'category-size'})

删除一再值

很大都据表中还包括一再值的题目，Excel 的数据目次下有“删除一再项”的成果，可以用来删除数据表中的一再值。默认 Excel 会保存最先呈现的数据，删除后头一再呈现的数据。

Python 中行使 drop_duplicates 函数删除一再值。我们以数据表中的 city 列为例，city 字段中存在一再值。默认环境下 drop_duplicates()将删除后呈现的一再值(与 excel 逻辑同等)。增进 keep=’last’参数后将删除最先呈现的一再值，保存最后的值。下面是详细的代码和较量功效。

原始的 city 列中 beijing 存在一再，别离在第一位和最后一位。

df['city'] 
0      beijing 
1           sh 
2    guangzhou 
3     shenzhen 
4     shanghai 
5      beijing 
Name: city, dtype: object

行使默认的 drop_duplicates()函数删除一再值，从功效中可以看到第一位的 beijing 被保存，最后呈现的 beijing 被删除。

#删除后呈现的一再值 
df['city'].drop_duplicates() 
0      beijing 
1           sh 
2    guangzhou 
3     shenzhen 
4     shanghai 
Name: city, dtype: object

配置 keep=’last‘’参数后，与之前删除一再值的功效相反，第一位呈现的 beijing 被删除，保存了最后一位呈现的 beijing。

#删除先呈现的一再值 
df['city'].drop_duplicates(keep='last') 
1           sh 
2    guangzhou 
3     shenzhen 
4     shanghai 
5      beijing 
Name: city, dtype: objec

数值修改及替代

数据洗濯中最后一个题目是数值修改或替代，Excel 中行使“查找和替代”成果就可以实现数值的替代。

Python 中行使 replace 函数实现数据替代。数据表中 city 字段上海存在两种写法，别离为 shanghai 和 SH。我们行使 replace 函数对 SH 举办替代。

#数据替代 
df['city'].replace('sh', 'shanghai') 
0      beijing 
1     shanghai 
2    guangzhou 
3     shenzhen 
4     shanghai 
5      beijing 
Name: city, dtype: object

本篇文章这是系列的第二篇，先容第 4-6 部门的内容，数据表天生，数据表查察，和数据洗濯。

04 数据预处理赏罚

第四部门是数据的预处理赏罚，对洗濯完的数据举办清算以便后期的统计和说明事变。首要包罗数据表的归并，排序，数值排列，数据分

组及标志等事变。

数据表归并

起首是对差异的数据表举办归并，我们这里建设一个新的数据表 df1，并将 df 和 df1 两个数据表举办归并。在 Excel 中没有直接完成数据表归并的成果，可以通过 VLOOKUP 函数分步实现。在 python 中可以通过 merge 函数一次性实现。下面成立 df1 数据表，用于和 df 数据表举办归并。

#建设df1数据表 
df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
"gender":['male','female','male','female','male','female','male','female'], 
"pay":['Y','N','Y','Y','N','Y','N','Y',], 
"m-point":[10,12,20,40,40,40,30,20]})

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/17

首页

尾页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您