Pandas常用技能概括

发布时间：2021-06-03 22:34:05 所属栏目：大数据来源：互联网

导读：归纳清算了一些事变中常用到的pandas行使能力，利便更高效地实现数据说明。 1.计较变量缺失率 df=pd.read_csv( titanic_train.csv ) defmissing_cal(df): df:数

副问题[/!--empirenews.page--]

归纳清算了一些事变中常用到的pandas行使能力，利便更高效地实现数据说明。

1.计较变量缺失率

df=pd.read_csv('titanic_train.csv')

def missing_cal(df):

"""

df :数据集

return：每个变量的缺失率

"""

missing_series = df.isnull().sum()/df.shape[0]

missing_df = pd.DataFrame(missing_series).reset_index()

missing_df = missing_df.rename(columns={'index':'col',

0:'missing_pct'})

missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True)

return missing_df

missing_cal(df)

假如必要计较样本的缺失率漫衍，只要加上参数axis=1.

2.获取分组里最大值地址的行要领

分为分组中有一再值和无一再值两种。

无一再值的环境。

df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]})

df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())]

先按Mt罗列办分组，然后对分组之后的数据框行使idxmax函数取出Count最大值地址的列，再用iloc位置索引将行取出。

有一再值的环境

df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64)

df[df["rank"] == 1][["ID", "class"]]

对ID举办分组之后再对分数应用rank函数，分数沟通的环境会赋予沟通的排名，然后取出排名为1的数据。

3.多列归并为一行

df = pd.DataFrame({'id_part':['a','b','c','d'], 'pred':[0.1,0.2,0.3,0.4], 'pred_class':['women','man','cat','dog'], 'v_id':['d1','d2','d3','d1']})

df.groupby(['v_id']).agg({'pred_class': [', '.join],'pred': lambda x: list(x),

'id_part': 'first'}).reset_index()

4.删除包括特定字符串地址的行

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智