副问题[/!--empirenews.page--]
全部做数据说明的条件就是:你得稀有据,并且已经颠末洗濯,清算成必要的名目。
不管你从那边获取了数据,你都必要当真细心调查你的数据,对不合规的数据举办整理,固然不是说必然要有这个步调,可是这是一个好风俗,由于保不齐后头说明的时辰发明之前由于没有对数据举办清算,而导致统计的数据有题目,本日小编就把平常用的数据洗濯的能力举办一个梳理,内里也许许多你都懂,那就当复习了吧!
文章纲要:
- 怎样更有用的导入你的数据
- 全面的调查数据
- 配置索引
- 配置标签
- 处理赏罚缺失值
- 删除一再项
- 数据范例转换
- 筛选数据
- 数据排序
- 处理赏罚文本
- 归并&匹配
导入数据:
- pd.read_excel("aa.xlsx")
- pd.read_csv("aa.xlsx")
- pd.read_clipboard
怎样有用的导入数据:
1、限制导入的行,假如数据很大,初期只是为了查察数据,可以先导入一小部门:
- pd.read_csv("aaa.csv",nrows=1000)
- pd.read_excel("aa.xlsx",nrows=1000)
2、假如你知道必要那些列,并且知道标署名,可以只导入必要的数据:
- pd.read_csv("aaa.csv",usecols=["A","B"])
- pd.read_excel("aa.xlsx",usecols=["A","B"])
3、关于列标签,假如没有,可能必要从头设定:
- pd.read_excel("aa.xlsx",header=None)#不必要原本的索引,会默认分派索引:0,1,2
- pd.read_excel("aa.xlsx",header=1)#配置第二举动列标签
- pd.read_excel("aa.xlsx",header=[1,2])#多级索引
- pd.read_csv("aaa.csv",header=None)
- pd.read_csv("aaa.csv",header=1)
- pd.read_csv("aaa.csv",header=[1,2])
4、配置索引列,假如你可以提供一个更有利于数据说明的索引列,不然分派默认的0,1,2:
- pd.read_csv("aaa.csv",index_col=1)
- pd.read_excel("aa.xlsx",index_col=2)
5、配置数值范例,这一步很重要,涉及到后期数据计较,也可往后期配置:
- pd.read_csv("aaa.csv",converters = {'排名': str, '场次': float})
- data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})
全面的查察数据:
查察前几行:
- data.head()

查察末端几行:
查察数据维度:
- data.shape(16281, 7)
查察DataFrame的数据范例
- df.dtypes
查察DataFrame的索引
- df.index
查察DataFrame的列索引
- df.columns
查察DataFrame的值
- df.values
查察DataFrame的描写
- df.describe()
某一列名目:
- df['B'].dtype
配置索引和标签:
偶然我们常常必要从头配置索引列,可能必要从头配置列标署名字:
从头配置列标署名:
- df.rename(columns={"A": "a", "B": "c"})
- df.rename(index={0: "x", 1: "y", 2: "z"})
从头配置索引:
- df.set_index('month')
从头修改队列范畴:
- df.reindex(['http_status', 'user_agent'], axis="columns")
- new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10', 'Chrome']
- df.reindex(new_index)
打消原有索引:
- df.reset_index()
处理赏罚缺失值和一再项:
判定是否有NA:df.isnull().any()
添补NA:
- pf.fillna(0)
删除含有NA的行:
- rs=df.dropna(axis=0)
删除含有NA的列:
- rs=df.dropna(axis=1)
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|