加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

你会用Python做数据预处理赏罚吗?

发布时间:2019-02-01 23:51:26 所属栏目:教程 来源:爱德宝器
导读:前戏 在拿到一份数据筹备做发掘建模之前,起首必要举办起源的数据试探性说明(你乐意花异常钟辖档退解数据说明要领吗?),对数据试探性说明之后要先举办一系列的数据预处理赏罚步调。由于拿到的原始数据存在不完备、纷歧致、有非常的数据,而这些错误数据会严峻
副问题[/!--empirenews.page--]

前戏

在拿到一份数据筹备做发掘建模之前,起首必要举办起源的数据试探性说明(你乐意花异常钟辖档退解数据说明要领吗?),对数据试探性说明之后要先举办一系列的数据预处理赏罚步调。由于拿到的原始数据存在不完备、纷歧致、有非常的数据,而这些“错误”数据会严峻影响到数据发掘建模的执行服从乃至导致发掘功效呈现毛病,因此起主要数据洗濯。数据洗濯完成之后接着举办可能同时举办数据集成、转换、归一化等一系列处理赏罚,该进程就是数据预处理赏罚。一方面是进步数据的质量,另一方面可以让数据更好的顺应特定的发掘模子,在现实事变中该部门的内容也许会占整个事变的70%乃至更多。

01、缺失值处理赏罚

因为职员录入数据进程中可能存储器破坏等缘故起因,缺失值在一份数据中或多或少存在,以是起首就必要对缺失值举办处理赏罚,缺失值处理赏罚总的原则是:行使最也许的值取代缺失值,使缺失值与其他数值之间的副黄?持最大。详细的常用要领如下:

  • 删除缺失值(缺失置魅占比很小的环境)
  • 人工添补 (数据集小,缺失值少)
  • 用全局变量添补(将缺失值添补一常数如“null”)
  • 行使样本数据的均值或中位数添补
  • 用插值法(如拉格朗日法、牛顿法)

Python缺失值处理赏罚实例代码:

a、判定删除缺失值- -isnull,notnull

  • 判定缺失值可以用来计较缺失置魅占比整个数据的巨细,假如占比很小可以删除缺失值。

b、添补替代缺失值--fillna

  • 假如缺失值不行以占比许多,就不能可以或许等闲的删除缺失值,可以用上述的插值要领添补缺失值。

c、焦点代码和功效图:

你会用Python做数据预处理赏罚吗?

你会用Python做数据预处理赏罚吗?

02、非常值处理赏罚

非常值是数据齐集偏离大部门数据的数据。从数据值上示意为:数据齐集与均匀值的毛病高出两倍尺度差的数据,个中与均匀值的毛病高出三倍尺度差的数据(3σ原则),称为高度非常的非常值。

  • 非常值说明要领
  • 3σ原则 (数据漫衍为正态漫衍)
  • 箱型图说明(内限or外限)。

常用处理赏罚要领如下:

  • 直接删除 (非常置魅占比小)
  • 临时保存,待团结整体模子综合说明
  • 操作现有样本信息的统计量添补(均值等)

Python非常值处理赏罚实例代码:

  • 检讨是否切合正态漫衍,切实用3σ原则判定并处理赏罚,焦点代码功效如下:

你会用Python做数据预处理赏罚吗?

你会用Python做数据预处理赏罚吗?

2. 当不切合正态漫衍时可用箱型图说明处理赏罚,焦点功效代码如下:

你会用Python做数据预处理赏罚吗?

你会用Python做数据预处理赏罚吗?

03、数据尺度化处理赏罚

数据的尺度化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些较量和评价的指标处理赏罚中常常会用到,去除数据的单元限定,将其转化为无量纲的纯数值,便于差异单元或量级的指标可以或许举办较量和加权,最典范的就是数据归一化处理赏罚就是将数据同一映射到[0,1]区间上 。

常用数据尺度化要领:

  • MIN- MAX尺度化(x - x_min)/(x_max-x_min)
  • z-score尺度化(x-x_mean)/x_std
  • 小数定标尺度化
  • 向量归一化
  • 线性比例调动法
  • 均匀值法
  • 指数转换法

归一化的目标:

  • 使得预处理赏罚的数据被限制在必然的范畴
  • 消除奇特样本数据导致的不良影响

在大佬Ng的视频课中听过一句话,归一化会加速梯度降落的求解速率。

应用场景声名:

  • SVM、线性回归之类的最优化题目必要归一化,是否归一化首要在于是否体谅变量取值;
  • 神经收集必要尺度化处理赏罚,一样平常变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模子发生影响。一样平常神经收集中的潜匿层回收tanh激活函数比sigmod激活函数要好些,由于tanh双曲正切函数的取值[-1,1]之间,均值为0;
  • 在K近邻算法中,假如差池表明变量举办尺度化,那么具有小数目级的表明变量的影响就会微乎其微。

留意:没有一种数据尺度化的要领,放在每一个题目,放在每一个模子,都能进步算法精度和加速算法的收敛速率。以是对付差异的题目也许会有差异的归一化要领。在分类、聚类算法中,必要行使间隔来怀抱相似性的时辰、可能行使PCA技能举办降维的时辰,Z-score standardization示意更好。

04、数据持续属性离散化

一些数据发掘算法,出格是分类算法,要求数据是分类属性情势。经常必要将持续属性调启航分类属性,即持续属性离散化。 常用的离散化要领:

  • 等宽法:将属性值域分成具有沟通宽度的区间,区间的个数由数据自己的特点抉择,可能由用户指定,相同于建造频率漫衍表。
  • 等频法:将沟通数目的记录放进每个区间。
  • 基于聚类说明的要领。 通过度箱离散化、通过直方图说明离散化、通过聚类、决定树和相干说明离散化、标称数据的观念分层发生。

05、总结

本文是笔者在进修数据说明进程中记录下来的一些通用的数据预处理赏罚步调,而且用Numpy、Pandas、Matplotlib等实现了每一种处理赏罚要领并可视化了处理赏罚功效。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读