加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python数据说明-看了这篇文章,数据洗濯你也就完全把握了

发布时间:2019-09-16 00:24:22 所属栏目:教程 来源:哗啦圈的梦
导读:全部做数据说明的条件就是:你得稀有据,并且已经颠末洗濯,清算成必要的名目。 不管你从那边获取了数据,你都必要当真细心调查你的数据,对不合规的数据举办整理,固然不是说必然要有这个步调,可是这是一个好风俗,由于保不齐后头说明的时辰发明之前由于

df.dtypes:查察数值范例

python数据说明-看了这篇文章,数据洗濯你也就完全把握了
  1. astype()逼迫转化数据范例
  2. 通过建设自界说的函数举办数据转化
  3.  pandas提供的to_nueric()以及to_datetime()
  1. df["Active"].astype("bool") 
  2. df['2016'].astype('float') 
  3. df["2016"].apply(lambda x: x.replace(",","").replace("$","")).astype("float64") 
  4. df["Percent Growth"].apply(lambda x: x.replace("%","")).astype("float")/100 
  5. pd.to_numeric(df["Jan Units"],errors='coerce').fillna(0) 
  6. pd.to_datetime(df[['Month', 'Day', 'Year']]) 

筛选数据:

1、按索引提取单行的数值

  1. df_inner.loc[3] 

2、按索引提取地区行数值

  1. df_inner.iloc[0:5] 

3、提取4日之前的全部数据

  1. df_inner[:’2013-01-04’] 

4、行使iloc按位置地区提取数据

  1. df_inner.iloc[:3,:2] #冒号前后的数字不再是索引的标署名称,而是数据地址的位置,从0开始,前三行,前两列。 

5、顺应iloc按位置单独提起数据

  1. df_inner.iloc[[0,2,5],[4,5]] #提取第0、2、5行,4、5列 

6、行使ix按索引标签和位置殽杂提取数据

  1. df_inner.ix[:’2013-01-03’,:4] #2013-01-03号之前,前四列数据 

7、行使loc提取行和列

  1. df_inner.loc(2:10,"A":"Z") 

8、判定city列里是否包括beijing和shanghai,然后将切合前提的数据提取出来

  1. df_inner[‘city’].isin([‘beijing’]) 
  2. df_inner.loc[df_inner[‘city’].isin([‘beijing’,’shanghai’])] 

9、提取前三个字符,并天生数据表

  1. pd.DataFrame(category.str[:3]) 

10、行使“与”举办筛选

  1. df_inner.loc[(df_inner[‘age’] > 25) & (df_inner[‘city’] == ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]] 

11、行使“或”举办筛选

  1. df_inner.loc[(df_inner[‘age’] > 25) | (df_inner[‘city’] == ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘age’]) 

12、行使“非”前提举办筛选

  1. df_inner.loc[(df_inner[‘city’] != ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘id’]) 

13、对筛选后的数据按city罗列办计数

  1. df_inner.loc[(df_inner[‘city’] != ‘beijing’), [‘id’,’city’,’age’,’category’,’gender’]].sort([‘id’]).city.count() 

14、行使query函数举办筛选

  1. df_inner.query(‘city == [“beijing”, “shanghai”]’) 

15、对筛选后的功效按prince举办求和

  1. df_inner.query(‘city == [“beijing”, “shanghai”]’).price.sum() 

数据排序

凭证特定列的值排序:

  1. df_inner.sort_values(by=[‘age’]) 

凭证索引列排序:

  1. df_inner.sort_index() 

升序

  1. df_inner.sort_values(by=[‘age’],ascending=True) 

降序

  1. df_inner.sort_values(by=[‘age’],ascending=False) 

归并匹配:

merge

  1. 1.result = pd.merge(left, right, on='key') 
  2. 2.result = pd.merge(left, right, on=['key1', 'key2']) 
  3. 3.result = pd.merge(left, right, how='left', on=['key1', 'key2']) 
  4. 4.result = pd.merge(left, right, how='right', on=['key1', 'key2']) 
  5. 5.result = pd.merge(left, right, how='outer', on=['key1', 'key2']) 

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读