加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python数据说明-看了这篇文章,数据洗濯你也就完全把握了

发布时间:2019-09-16 00:24:22 所属栏目:教程 来源:哗啦圈的梦
导读:全部做数据说明的条件就是:你得稀有据,并且已经颠末洗濯,清算成必要的名目。 不管你从那边获取了数据,你都必要当真细心调查你的数据,对不合规的数据举办整理,固然不是说必然要有这个步调,可是这是一个好风俗,由于保不齐后头说明的时辰发明之前由于
副问题[/!--empirenews.page--]

全部做数据说明的条件就是:你得稀有据,并且已经颠末洗濯,清算成必要的名目。

不管你从那边获取了数据,你都必要当真细心调查你的数据,对不合规的数据举办整理,固然不是说必然要有这个步调,可是这是一个好风俗,由于保不齐后头说明的时辰发明之前由于没有对数据举办清算,而导致统计的数据有题目,本日小编就把平常用的数据洗濯的能力举办一个梳理,内里也许许多你都懂,那就当复习了吧!

文章纲要:

  1. 怎样更有用的导入你的数据
  2. 全面的调查数据
  3. 配置索引
  4. 配置标签
  5. 处理赏罚缺失值
  6. 删除一再项
  7. 数据范例转换
  8. 筛选数据
  9. 数据排序
  10. 处理赏罚文本
  11. 归并&匹配

导入数据:

  1. pd.read_excel("aa.xlsx") 
  2. pd.read_csv("aa.xlsx") 
  3. pd.read_clipboard 

怎样有用的导入数据:

1、限制导入的行,假如数据很大,初期只是为了查察数据,可以先导入一小部门:

  1. pd.read_csv("aaa.csv",nrows=1000) 
  2. pd.read_excel("aa.xlsx",nrows=1000) 

2、假如你知道必要那些列,并且知道标署名,可以只导入必要的数据:

  1. pd.read_csv("aaa.csv",usecols=["A","B"]) 
  2. pd.read_excel("aa.xlsx",usecols=["A","B"]) 

3、关于列标签,假如没有,可能必要从头设定:

  1. pd.read_excel("aa.xlsx",header=None)#不必要原本的索引,会默认分派索引:0,1,2 
  2. pd.read_excel("aa.xlsx",header=1)#配置第二举动列标签 
  3. pd.read_excel("aa.xlsx",header=[1,2])#多级索引 
  4. pd.read_csv("aaa.csv",header=None) 
  5. pd.read_csv("aaa.csv",header=1) 
  6. pd.read_csv("aaa.csv",header=[1,2]) 

4、配置索引列,假如你可以提供一个更有利于数据说明的索引列,不然分派默认的0,1,2:

  1. pd.read_csv("aaa.csv",index_col=1) 
  2. pd.read_excel("aa.xlsx",index_col=2) 

5、配置数值范例,这一步很重要,涉及到后期数据计较,也可往后期配置:

  1. pd.read_csv("aaa.csv",converters = {'排名': str, '场次': float}) 
  2. data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float}) 

全面的查察数据:

查察前几行:

  1. data.head() 

python数据说明-看了这篇文章,数据洗濯你也就完全把握了

查察末端几行:

python数据说明-看了这篇文章,数据洗濯你也就完全把握了

查察数据维度:

  1. data.shape(16281, 7) 

查察DataFrame的数据范例

  1. df.dtypes 

查察DataFrame的索引

  1. df.index 

查察DataFrame的列索引

  1. df.columns 

查察DataFrame的值

  1. df.values 

查察DataFrame的描写

  1. df.describe() 

某一列名目:

  1. df['B'].dtype 

配置索引和标签:

偶然我们常常必要从头配置索引列,可能必要从头配置列标署名字:

从头配置列标署名:

  1. df.rename(columns={"A": "a", "B": "c"}) 
  2. df.rename(index={0: "x", 1: "y", 2: "z"}) 

从头配置索引:

  1. df.set_index('month') 

从头修改队列范畴:

  1. df.reindex(['http_status', 'user_agent'], axis="columns") 
  2. new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10', 'Chrome'] 
  3. df.reindex(new_index) 

打消原有索引:

  1. df.reset_index() 

处理赏罚缺失值和一再项:

判定是否有NA:df.isnull().any()

添补NA:

  1. pf.fillna(0) 

删除含有NA的行:

  1. rs=df.dropna(axis=0) 

删除含有NA的列:

  1. rs=df.dropna(axis=1) 

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读