加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

没有美满的数据插补法,只有最得当的

发布时间:2018-10-25 04:37:04 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理赏罚数据时常常碰着的题目,本文作者基于差异的情境提供了响应的数据插补办理步伐。没有美满的数据插补法,但总有一款更得当当下环境。 我在数据整理与试探性说明中碰着的最常见题目之一
副问题[/!--empirenews.page--]

没有美满的数据插补法,只有最得当的

大数据文摘出品

编译:张秋玥、胡笳、夏雅薇

数据缺失是数据科学家在处理赏罚数据时常常碰着的题目,本文作者基于差异的情境提供了响应的数据插补办理步伐。没有美满的数据插补法,但总有一款更得当当下环境。

我在数据整理与试探性说明中碰着的最常见题目之一就是处理赏罚缺失数据。起首我们必要大白的是,没有任何要领可以或许美满办理这个题目。差异题目有差异的数据插补要领——时刻序列说明,呆板进修,回归模子等等,很难提供通用办理方案。在这篇文章中,我将试着总结最常用的要领,并探求一个布局化的办理要领。

一、插补数据vs删除数据

在接头数据插补要领之前,我们必需相识数据丢失的缘故起因。

  • 随机丢失(MAR,Missing at Random):随机丢失意味着数据丢失的概率与丢失的数据自己无关,而仅与部门已视察到的数据有关。
  • 完全随机丢失(MCAR,Missing Completely at Random):数据丢失的概率与其假设值以及其他变量值都完全无关。
  • 非随机丢失(MNAR,Missing not at Random):有两种也许的环境。缺失值取决于其假设值(譬喻,高收入人群凡是不但愿在观测中透露他们的收入);可能,缺失值取决于其他变量值(假设女性凡是不想透露她们的年数,则这里年数变量缺失值受性别变量的影响)。

在前两种环境下可以按照其呈现环境删除缺失值的数据,而在第三种环境下,删除包括缺失值的数据也许会导致模子呈现毛病。因此我们必要对删除数据很是审慎。请留意,插补数据并不必然能提供更好的功效。

没有美满的数据插补法,只有最得当的

二、删除

1. 列表删除

按列表删除(完备案例说明)会删除一行视察值,只要其包括至少一个缺失数据。你也许只必要直接删除这些视察值,说明就会很好做,尤其是当缺失数据只占总数据很小一部门的时辰。然而在大大都环境下,这种删除要领并欠好用。由于完全随机缺失(MCAR)的假设凡是很难被满意。因此本删除要了解造成有毛病的参数与预计。

  1. newdata <- na.omit(mydata) 
  2. # In python 
  3. mydata.dropna(inplace=True) 

2. 成对删除

在重要变量存在的环境下,成对删除只会删除相对不重要的变量行。这样可以尽也许担保富裕的数据。该要领的上风在于它可以或许辅佐加强说明结果,可是它也有很多不敷。它假设缺失数据听从完全随机丢失(MCAR)。假如你行使此要领,最终模子的差异部门就会获得差异数目的视察值,从而使得模子表明很是坚苦。

没有美满的数据插补法,只有最得当的

视察行3与4将被用于计较ageNa与DV1的协方差;视察行2、3与4将被用于计较DV1与DV2的协方差。

  1. #Pairwise Deletion 
  2. ncovMatrix <- cov(mydata, use="pairwise.complete.obs") 
  3.  
  4. #Listwise Deletion 
  5. ncovMatrix <- cov(mydata, use="complete.obs") 

3. 删除变量

在我看来,保存数据老是比丢弃数据更好。偶然,假如高出60%的视察数据缺失,直接删除该变量也可以,但条件是该变量无关紧急。话虽云云,插补数据老是比直接扬弃变量好一些。

  1. df <- subset(mydata, select = -c(x,z) ) 
  2. df <- mydata[ -c(1,3:4) ] 
  3.  
  4. In python 
  5. del mydata.column_name 
  6. mydata.drop('column_name', axis=1, inplace=True) 
  7.  
  8. Time-Series Specific Methods 

三、时刻序列说明专属要领

前推法(LOCF,Last Observation Carried Forward,将每个缺失值替代为缺失之前的最后一次视察值)与后推法(NOCB,Next Observation Carried Backward,与LOCF偏向相反——行使缺失值后头的视察值举办弥补)

这是说明也许穷乏后续视察值的纵向一再丈量数据的常用要领。纵向数据在差异时刻点跟踪统一样本。当数据具有明明的趋势时,这两种要领都也许在说明中引入毛病,示意不佳。

线性插值。此要领合用于具有某些趋势但并非季候性数据的时刻序列。

季候性调解+线性插值。此要领合用于具有趋势与季候性的数据。

季候性+插值法

季候性+插值法

线性插值法

线性插值法

LOCF插补法

LOCF插补法

LOCF插补法

均值插补法

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读