加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

常用的数据尺度化要领

发布时间:2021-03-07 23:05:48 所属栏目:大数据 来源:网络整理
导读:数据的尺度化(normalization)是将数据凭证必然法则缩放,使之落入一个小的特定区间。这样去除数据的单元限定,将其转化为无量纲的纯数值,便于差异单元或量级的指标可以或许举办较量和加权。个中最典范的就是0-1尺度化和Z尺度化,虽然,也有一些其他的尺度化方

数据的尺度化(normalization)是将数据凭证必然法则缩放,使之落入一个小的特定区间。这样去除数据的单元限定,将其转化为无量纲的纯数值,便于差异单元或量级的指标可以或许举办较量和加权。个中最典范的就是0-1尺度化和Z尺度化,虽然,也有一些其他的尺度化要领,用在差异场景,这里首要先容几种常用的要领。

1、Min-Max尺度化(Min-Max normalization)

也称离差尺度化,是对原始数据的线性调动,使功效落到[0,1]区间,转换函数如下:

yi=xi?min{xj}max{xj}?min{xj} ,(1 i n,1 j n)

个中 max{xj} 为样本数据的最大值, min{xj} 为样本数据的最小值。这种要领有一个缺陷就是当有新数据插手时,也许导致max和min的变革,必要从头界说。

2、Z-score 尺度化(zero-mean normalization)

也叫尺度差尺度化,颠末处理赏罚的数据切合尺度正态漫衍,即均值为0,尺度差为1,其转化函数为:

yi=xi?x?s ,(1 i n)

个中 x?? 为全部样本数据的均值,s 为全部样本数据的尺度差。

颠末 Z-score 尺度化后,各变量将有约一半调查值的数值小于0,另一半调查值的数值大于0,变量的均匀数为0,尺度差为1。经尺度化的数据都是没有单元的纯数目。它是当前用得最多的数据尺度化要领。假如特性很是稀少,而且有大量的0(实际应用中许多特性都具有这个特点),Z-score 尺度化的进程险些就是一个除0的进程,功效不行预料。

3、归一尺度化

yi=xi∑n1x2i ,(1 i n)

则新序列 y1,y2,…,yn∈[0,1] 且无量纲而且显然有 ∑niyi=1 .

归一化要领在确定权重时常常用到。针对现实环境,也也许有其他一些量化要领,可能要综合行使多种要领,总之最后的功效都是无量纲化。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读