加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

一文看懂怎么用Python做数据分析

发布时间:2019-06-26 16:27:58 所属栏目:教程 来源:程序员ACE
导读:常碰着两类伴侣。一类是会爬虫但不知道怎样进一步做数据说明的,一类是泛泛用 Excel 做说明但不太会用 Python 说明的。假如和你很像,那下面这篇体系长文会很得当你,提议先保藏。 Excel 是数据说明中最常用的器材,本文通过 Python 与 excel 的成果比拟介

Rename 是变动列名称的函数,我们未来数据表中的 category 列变动为 category-size。下面是详细的代码和变动后的功效。

  1. #变动列名称 
  2. df.rename(columns={'category': 'category-size'}) 
一文看懂怎么用 Python 做数据说明

删除一再值

很大都据表中还包括一再值的题目,Excel 的数据目次下有“删除一再项”的成果,可以用来删除数据表中的一再值。默认 Excel 会保存最先呈现的数据,删除后头一再呈现的数据。

一文看懂怎么用 Python 做数据说明

Python 中行使 drop_duplicates 函数删除一再值。我们以数据表中的 city 列为例,city 字段中存在一再值。默认环境下 drop_duplicates()将删除后呈现的一再值(与 excel 逻辑同等)。增进 keep=’last’参数后将删除最先呈现的一再值,保存最后的值。下面是详细的代码和较量功效。

原始的 city 列中 beijing 存在一再,别离在第一位和最后一位。

  1. df['city'] 
  2. 0      beijing 
  3. 1           sh 
  4. 2    guangzhou 
  5. 3     shenzhen 
  6. 4     shanghai 
  7. 5      beijing 
  8. Name: city, dtype: object 

行使默认的 drop_duplicates()函数删除一再值,从功效中可以看到第一位的 beijing 被保存,最后呈现的 beijing 被删除。

  1. #删除后呈现的一再值 
  2. df['city'].drop_duplicates() 
  3. 0      beijing 
  4. 1           sh 
  5. 2    guangzhou 
  6. 3     shenzhen 
  7. 4     shanghai 
  8. Name: city, dtype: object 

配置 keep=’last‘’参数后,与之前删除一再值的功效相反,第一位呈现的 beijing 被删除,保存了最后一位呈现的 beijing。

  1. #删除先呈现的一再值 
  2. df['city'].drop_duplicates(keep='last') 
  3. 1           sh 
  4. 2    guangzhou 
  5. 3     shenzhen 
  6. 4     shanghai 
  7. 5      beijing 
  8. Name: city, dtype: objec 

数值修改及替代

数据洗濯中最后一个题目是数值修改或替代,Excel 中行使“查找和替代”成果就可以实现数值的替代。

一文看懂怎么用 Python 做数据说明

Python 中行使 replace 函数实现数据替代。数据表中 city 字段上海存在两种写法,别离为 shanghai 和 SH。我们行使 replace 函数对 SH 举办替代。

  1. #数据替代 
  2. df['city'].replace('sh', 'shanghai') 
  3. 0      beijing 
  4. 1     shanghai 
  5. 2    guangzhou 
  6. 3     shenzhen 
  7. 4     shanghai 
  8. 5      beijing 
  9. Name: city, dtype: object 

本篇文章这是系列的第二篇,先容第 4-6 部门的内容,数据表天生,数据表查察,和数据洗濯。

一文看懂怎么用 Python 做数据说明

04 数据预处理赏罚

第四部门是数据的预处理赏罚,对洗濯完的数据举办清算以便后期的统计和说明事变。首要包罗数据表的归并,排序,数值排列,数据分

组及标志等事变。

数据表归并

起首是对差异的数据表举办归并,我们这里建设一个新的数据表 df1,并将 df 和 df1 两个数据表举办归并。在 Excel 中没有直接完成数据表归并的成果,可以通过 VLOOKUP 函数分步实现。在 python 中可以通过 merge 函数一次性实现。下面成立 df1 数据表,用于和 df 数据表举办归并。

  1. #建设df1数据表 
  2. df1=pd.DataFrame({"id":[1001,1002,1003,1004,1005,1006,1007,1008], 
  3. "gender":['male','female','male','female','male','female','male','female'], 
  4. "pay":['Y','N','Y','Y','N','Y','N','Y',], 
  5. "m-point":[10,12,20,40,40,40,30,20]}) 
一文看懂怎么用 Python 做数据说明

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读