Python数据说明-看了这篇文章，数据洗濯你也就完全把握了

发布时间：2019-09-16 00:24:22 所属栏目：教程来源：哗啦圈的梦

导读：全部做数据说明的条件就是：你得稀有据，并且已经颠末洗濯，清算成必要的名目。不管你从那边获取了数据，你都必要当真细心调查你的数据，对不合规的数据举办整理，固然不是说必然要有这个步调，可是这是一个好风俗，由于保不齐后头说明的时辰发明之前由于

副问题[/!--empirenews.page--]

全部做数据说明的条件就是：你得稀有据，并且已经颠末洗濯，清算成必要的名目。

不管你从那边获取了数据，你都必要当真细心调查你的数据，对不合规的数据举办整理，固然不是说必然要有这个步调，可是这是一个好风俗，由于保不齐后头说明的时辰发明之前由于没有对数据举办清算，而导致统计的数据有题目，本日小编就把平常用的数据洗濯的能力举办一个梳理，内里也许许多你都懂，那就当复习了吧!

文章纲要：

怎样更有用的导入你的数据
全面的调查数据
配置索引
配置标签
处理赏罚缺失值
删除一再项
数据范例转换
筛选数据
数据排序
处理赏罚文本
归并&匹配

导入数据：

pd.read_excel("aa.xlsx") 
pd.read_csv("aa.xlsx") 
pd.read_clipboard

怎样有用的导入数据：

1、限制导入的行，假如数据很大，初期只是为了查察数据，可以先导入一小部门：

pd.read_csv("aaa.csv",nrows=1000) 
pd.read_excel("aa.xlsx",nrows=1000)

2、假如你知道必要那些列，并且知道标署名，可以只导入必要的数据：

pd.read_csv("aaa.csv",usecols=["A","B"]) 
pd.read_excel("aa.xlsx",usecols=["A","B"])

3、关于列标签，假如没有，可能必要从头设定：

pd.read_excel("aa.xlsx",header=None)#不必要原本的索引，会默认分派索引：0，1，2 
pd.read_excel("aa.xlsx",header=1)#配置第二举动列标签 
pd.read_excel("aa.xlsx",header=[1,2])#多级索引 
pd.read_csv("aaa.csv",header=None) 
pd.read_csv("aaa.csv",header=1) 
pd.read_csv("aaa.csv",header=[1,2])

4、配置索引列，假如你可以提供一个更有利于数据说明的索引列，不然分派默认的0，1，2：

pd.read_csv("aaa.csv",index_col=1) 
pd.read_excel("aa.xlsx",index_col=2)

5、配置数值范例，这一步很重要，涉及到后期数据计较，也可往后期配置：

pd.read_csv("aaa.csv",converters = {'排名': str, '场次': float}) 
data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})

全面的查察数据：

查察前几行：

data.head()

python数据说明-看了这篇文章，数据洗濯你也就完全把握了

查察末端几行：

查察数据维度：

data.shape(16281, 7)

查察DataFrame的数据范例

df.dtypes

查察DataFrame的索引

df.index

查察DataFrame的列索引

df.columns

查察DataFrame的值

df.values

查察DataFrame的描写

df.describe()

某一列名目：

df['B'].dtype

配置索引和标签：

偶然我们常常必要从头配置索引列，可能必要从头配置列标署名字：

从头配置列标署名：

df.rename(columns={"A": "a", "B": "c"}) 
df.rename(index={0: "x", 1: "y", 2: "z"})

从头配置索引：

df.set_index('month')

从头修改队列范畴：

df.reindex(['http_status', 'user_agent'], axis="columns") 
new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10', 'Chrome'] 
df.reindex(new_index)

打消原有索引：

df.reset_index()

处理赏罚缺失值和一再项：

判定是否有NA：df.isnull().any()

添补NA：

pf.fillna(0)

删除含有NA的行：

rs=df.dropna(axis=0)

删除含有NA的列：

rs=df.dropna(axis=1)

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

教你如何安装ghost xp	深度技术Ghost xp系统
ghost xp sp3电脑公司	8187无线网卡驱动,教您