一文看懂怎么用Python做数据分析
Rename 是变动列名称的函数,我们未来数据表中的 category 列变动为 category-size。下面是详细的代码和变动后的功效。
![]() 删除一再值 很大都据表中还包括一再值的题目,Excel 的数据目次下有“删除一再项”的成果,可以用来删除数据表中的一再值。默认 Excel 会保存最先呈现的数据,删除后头一再呈现的数据。 ![]() Python 中行使 drop_duplicates 函数删除一再值。我们以数据表中的 city 列为例,city 字段中存在一再值。默认环境下 drop_duplicates()将删除后呈现的一再值(与 excel 逻辑同等)。增进 keep=’last’参数后将删除最先呈现的一再值,保存最后的值。下面是详细的代码和较量功效。 原始的 city 列中 beijing 存在一再,别离在第一位和最后一位。
行使默认的 drop_duplicates()函数删除一再值,从功效中可以看到第一位的 beijing 被保存,最后呈现的 beijing 被删除。
配置 keep=’last‘’参数后,与之前删除一再值的功效相反,第一位呈现的 beijing 被删除,保存了最后一位呈现的 beijing。
数值修改及替代 数据洗濯中最后一个题目是数值修改或替代,Excel 中行使“查找和替代”成果就可以实现数值的替代。 ![]() Python 中行使 replace 函数实现数据替代。数据表中 city 字段上海存在两种写法,别离为 shanghai 和 SH。我们行使 replace 函数对 SH 举办替代。
本篇文章这是系列的第二篇,先容第 4-6 部门的内容,数据表天生,数据表查察,和数据洗濯。 ![]() 04 数据预处理赏罚 第四部门是数据的预处理赏罚,对洗濯完的数据举办清算以便后期的统计和说明事变。首要包罗数据表的归并,排序,数值排列,数据分 组及标志等事变。 数据表归并 起首是对差异的数据表举办归并,我们这里建设一个新的数据表 df1,并将 df 和 df1 两个数据表举办归并。在 Excel 中没有直接完成数据表归并的成果,可以通过 VLOOKUP 函数分步实现。在 python 中可以通过 merge 函数一次性实现。下面成立 df1 数据表,用于和 df 数据表举办归并。
![]() (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |