常用的数据尺度化要领
数据的尺度化(normalization)是将数据凭证必然法则缩放,使之落入一个小的特定区间。这样去除数据的单元限定,将其转化为无量纲的纯数值,便于差异单元或量级的指标可以或许举办较量和加权。个中最典范的就是0-1尺度化和Z尺度化,虽然,也有一些其他的尺度化要领,用在差异场景,这里首要先容几种常用的要领。 1、Min-Max尺度化(Min-Max normalization) 也称离差尺度化,是对原始数据的线性调动,使功效落到[0,1]区间,转换函数如下:
个中
2、Z-score 尺度化(zero-mean normalization) 也叫尺度差尺度化,颠末处理赏罚的数据切合尺度正态漫衍,即均值为0,尺度差为1,其转化函数为:
个中
颠末 Z-score 尺度化后,各变量将有约一半调查值的数值小于0,另一半调查值的数值大于0,变量的均匀数为0,尺度差为1。经尺度化的数据都是没有单元的纯数目。它是当前用得最多的数据尺度化要领。假如特性很是稀少,而且有大量的0(实际应用中许多特性都具有这个特点),Z-score 尺度化的进程险些就是一个除0的进程,功效不行预料。 3、归一尺度化
则新序列
归一化要领在确定权重时常常用到。针对现实环境,也也许有其他一些量化要领,可能要综合行使多种要领,总之最后的功效都是无量纲化。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |