Pandas常用技能概括
副问题[/!--empirenews.page--]
归纳清算了一些事变中常用到的pandas行使能力,利便更高效地实现数据说明。 1.计较变量缺失率 df=pd.read_csv('titanic_train.csv') def missing_cal(df): """ df :数据集
return:每个变量的缺失率 """ missing_series = df.isnull().sum()/df.shape[0] missing_df = pd.DataFrame(missing_series).reset_index() missing_df = missing_df.rename(columns={'index':'col', 0:'missing_pct'}) missing_df = missing_df.sort_values('missing_pct',ascending=False).reset_index(drop=True) return missing_df missing_cal(df) 假如必要计较样本的缺失率漫衍,只要加上参数axis=1. 2.获取分组里最大值地址的行要领 分为分组中有一再值和无一再值两种。 无一再值的环境。 df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2','s2','s2','s3'], 'Value':[1,2,3,4,5,6], 'Count':[3,2,5,10,10,6]}) df df.iloc[df.groupby(['Mt']).apply(lambda x: x['Count'].idxmax())] 先按Mt罗列办分组,然后对分组之后的数据框行使idxmax函数取出Count最大值地址的列,再用iloc位置索引将行取出。 有一再值的环境 df["rank"] = df.groupby("ID")["score"].rank(method="min", ascending=False).astype(np.int64) df[df["rank"] == 1][["ID", "class"]] 对ID举办分组之后再对分数应用rank函数,分数沟通的环境会赋予沟通的排名,然后取出排名为1的数据。 3.多列归并为一行 df = pd.DataFrame({'id_part':['a','b','c','d'], 'pred':[0.1,0.2,0.3,0.4], 'pred_class':['women','man','cat','dog'], 'v_id':['d1','d2','d3','d1']}) df.groupby(['v_id']).agg({'pred_class': [', '.join],'pred': lambda x: list(x), 'id_part': 'first'}).reset_index() 4.删除包括特定字符串地址的行 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |