加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据说明中缺失值的处理赏罚要领

发布时间:2021-05-26 14:56:45 所属栏目:大数据 来源:网络整理
导读:1、 缺失值的分类 凭证数据缺失机制可分为: (1) ??? 完全随机缺失 (missing completely at random,MCAR) 所缺失的数据产生的概率既与已调查到的数据无关 , 也与未调查到的数据无关 . (2) ??? 随机缺失 (missing at random,MAR) ? ? ?? 假设缺失数据产生的概

1、缺失值的分类

凭证数据缺失机制可分为:

(1)???完全随机缺失(missing completely at random,MCAR)

所缺失的数据产生的概率既与已调查到的数据无关,也与未调查到的数据无关.

(2)???随机缺失(missing at random,MAR)

? ? ??假设缺失数据产生的概率与所调查到的变量是有关的,而与未调查到的数据的特性是无关的

MCAR与MAR均被称为是可忽略的缺失情势.

(3)?不行忽略的缺失(non-ignorable missing,NIM)亦称为非随机缺失(not missing at random,NMAR),也有研究将其称为MNAR(missing not at random)

假如不完全变量中数据的缺失既依靠于完全变量又依靠于不完全变量自己,这种缺失即为不行忽略的缺失.

2、缺失值的处理赏罚要领

? ?对付缺失值的处理赏罚,从总体上来说分为删除存在缺失值的个案和缺失值插补。对付主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真势サ谢能担保,那么依靠于这些属性值的插补一ㄇ不行靠的,以是对付主观数据一样平常不保举插补的要领。插补首要是针对客观数据,它的靠得住性有担保。

1.删除含有缺失值的个案

有简朴删除法和权重法。简朴删除法是对缺失值举办处理赏罚的最原始要领。它将存在缺失值的个案删除。假如数据缺失题目可以通过简朴的删除小部门样原来到达方针,那么这个要领是最有用的。当缺失值的范例为非完全随机缺失的时辰,可以通过对完备的数据加权来减小毛病。把数据不完全的个案标志后,将完备的数据个案赋予差异的权重,个案的权重可以通过logistic或probit回归求得。假如表明变量中存在对权重预计起抉择行身分的变量,那么这种要领可以有用减小毛病。假如表明变量和权重并不相干,它并不能减小毛病。对付存在多个属性缺失的环境,就必要对差异属性的缺失组合赋差异的权重,这将大大增进计较的难度,低落猜测的精确性,这时权重法并不抱负。

2.也许值插补缺失值

  它的头脑来历是以最也许的值来插补缺失值比所有删除不完全样本所发生的信息丢失要少。在数据发掘中,面临的凡是是大型的数据库,它的属性有几十个乃至几百个,由于一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大挥霍,以是发生了以也许值对缺失值举办插补的头脑与要领。常用的有如下几种要领。

  (1)均值插补。数据的属性分为定距型和非定距型。假如缺失值是定距型的,就以该属性存在值的均匀值来插补缺失的值;假如缺失值长短定距型的,就按照统计学中的众数道理,用该属性的众数(即呈现频率最高的值)来补齐缺失的值。

  (2)操作同类均值插补。同均值插补的要领都属于单值插补,差异的是,它用条理聚类模子猜测缺失变量的范例,再以该范例的均值插补。假设X= (X1,X2…Xp)为信息完全的变量,Y为存在缺失值的变量,那么起首对X或其子集行聚类,然后按缺失个案所属类来插补差异类的均值。假如在往后统计说明中还需以引入的表明变量和Y做说明,那么这种插补要领将在模子中引入自相干,给说明造成障碍。

  (3)极大似然预计(Max Likelihood,ML)。在缺失范例为随机缺失的前提下,假设模子对付完备的样本是正确的,那么通过视察数据的边际漫衍可以对未知参数举办极大似然预计(Little and Rubin)。这种要领也被称为忽略缺失值的极大似然预计,对付极大似然的参数预计现实中常回收的计较要领是祈望值最大化(Expectation Maximization,EM)。该要领比删除个案和单值插补更有吸引力,它一个重要条件:合用于大样本。有用样本的数目足够以担保ML预计值是渐近无偏的并听从正态漫衍。可是这种要领也许会陷入局部极值,收敛速率也不是很快,而且计较很伟大。

  (4)多重插补(Multiple Imputation,MI)。多值插补的头脑来历于贝叶斯预计,以为待插补的值是随机的,它的值来自于已视察到的值。详细实践上凡是是预计出待插补的值,然后再加上差异的噪声,形成多组可选插补值。按照某种选择依据,选取最吻合的插补值。

  多重插补要领分为三个步调:①为每个空值发生一套也许的插补值,这些值反应了无相应模子的不确定性;每个值都可以被用来插补数据齐集的缺失值,发生多少个完备数据荟萃。②每个插补数据荟萃都用针对完备数据集的统计要领举办统计说明。③对来自各个插补数据集的功效,按照评分函数举办选择,发生最终的插补值。

  假设一组数据,包罗三个变量Y1,Y2,Y3,它们的连系漫衍为正态漫衍,将这组数据处理赏罚成三组,A组保持原始数据,B组仅缺失Y3,C组缺失Y1和Y2。在多值插补时,对A组将不举办任那里理赏罚,对B组发生Y3的一组预计值(作Y3关于Y1,Y2的回归),对C组作发生Y1和Y2的一构成对预计值(作Y1,Y2关于Y3的回归)。

  当用多值插补时,对A组将不举办处理赏罚,对B、C组将完备的样本随机抽取形成为m组(m为可选择的m组插补值),每组个案数只要可以或许有用预计参数就可以了。对存在缺失值的属性的漫衍作出预计,然后基于这m组视察值,对付这m组样天职别发生关于参数的m组预计值,给出响应的猜测即,这时回收的预计要领为极大似然法,在计较机中详细的实现算法为祈望最大化法(EM)。对B组预计出一组Y3的值,对C将操作 Y1,Y2,Y3它们的连系漫衍为正态漫衍这一条件,预计出一组(Y1,Y2)。

  上例中假定了Y1,Y3的连系漫衍为正态漫衍。这个假设是工钱的,可是已经通过验证(Graham和Schafer于1999),非正态连系漫衍的变量,在这个假定下如故可以预计到很靠近真实值的功效。

  多重插补和贝叶斯预计的头脑是同等的,可是多重插补补充了贝叶斯预计的几个不敷。

  (1)贝叶斯预计以极大似然的要领预计,极大似然的要领要求模子的情势必需精确,假如参数情势不正确,将获得错误得结论,即先验漫衍将影响后验漫衍的精确性。而多重插补所依据的是大样本渐近完备的数据的理论,在数据发掘中的数据量都很大,先验漫衍将极小的影响功效,以是先验漫衍的对功效的影响不大。

  (2)贝叶斯预计仅要求知道未知参数的先验漫衍,没有操作与参数的相关。而多重插补对参数的连系漫衍作出了预计,操作了参数间的彼此相关。

? ??以上四种插补要领,对付缺失值的范例为随机缺失的插补有很好的结果。两种均值插补要领是最轻易实现的,也是早年人们常常行使的,可是它对样本存在极大的滋扰,尤其是当插补后的值作为表明变量举办回归时,参数的预计值与真实值的毛病很大。对较量而言,极大似然预计和多重插补是两种较量好的插补要领,与多重插补比拟,极大似然穷乏不确定因素,以是越来越多的人倾向于行使多重插补要领。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读