加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

没有美满的数据插补法,只有最得当的

发布时间:2018-10-25 04:37:04 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理赏罚数据时常常碰着的题目,本文作者基于差异的情境提供了响应的数据插补办理步伐。没有美满的数据插补法,但总有一款更得当当下环境。 我在数据整理与试探性说明中碰着的最常见题目之一

注:以上数据来自imputeTS库的tsAirgap;插补数据被标红。

  1. library(imputeTS) 
  2.  
  3. na.random(mydata)                  # Random Imputation 
  4. na.locf(mydata, option = "locf")   # Last Obs. Carried Forward 
  5. na.locf(mydata, option = "nocb")   # Next Obs. Carried Backward 
  6. na.interpolation(mydata)           # Linear Interpolation 
  7. na.seadec(mydata, algorithm = "interpolation") # Seasonal Adjustment then Linear Interpolation 

四、均值,中位数与众数

计较整体均值、中位数或众数是一种很是根基的插补要领,它是独一没有操作时刻序列特性或变量相关的测试函数。该要领计较起来很是快速,但它也有明明的弱点。个中一个弱点就是,均值插补会镌汰数据的变革差别(方差)。

  1. library(imputeTS) 
  2.  
  3. na.mean(mydata, option = "mean")   # Mean Imputation 
  4. na.mean(mydata, option = "median") # Median Imputation 
  5. na.mean(mydata, option = "mode")   # Mode Imputation 
  6.  
  7. In Python 
  8. from sklearn.preprocessing import Imputer 
  9. values = mydata.values 
  10. imputer = Imputer(missing_values=’NaN’, strategy=’mean’) 
  11. transformed_values = imputer.fit_transform(values) 
  12.  
  13. # strategy can be changed to "median" and “most_frequent” 

五、线性回归

起首,行使相相关数矩阵可以或许选出一些缺失数据变量的猜测变量。从中选择最靠谱的猜测变量,并将其用于回归方程中的自变量。缺失数据的变量则被用于因变量。自变量数据完备的那些视察行被用于天生回归方程;厥后,该方程则被用于猜测缺失的数据点。在迭代进程中,我们插入缺失数据变量的值,再行使全部数据行来猜测因变量。一再这些步调,直到上一步与这一步的猜测值险些没有什么不同,也即收敛。

该要领“理论上”提供了缺失数据的精采预计。然而,它有几个弱点也许比利益还值得存眷。起首,由于替代值是按照其他变量猜测的,他们倾向于“过好”地组合在一路,因此尺度差会被缩小。我们还必需假设回归用到的变量之间存在线性相关——而现实上他们之间也许并不存在这样的相关。

六、多重插补

  • 插补:将不完备数据集缺失的视察行估算添补m次(图中m=3)。请留意,添补值是从某种漫衍中提取的。模仿随机抽取并不包括模子参数的不确定性。更好的要领是回收马尔科夫链蒙特卡洛模仿(MCMC,Markov Chain Monte Carlo Simulation)。这一步调将天生m个完备的数据集。
  • 说明:别离对(m个)每一个完备数据集举办说明。
  • 归并:将m个说明功效整合为最终功效。

没有美满的数据插补法,只有最得当的

来历:http://www.stefvanbuuren.nl/publications/mice%20in%20r%20-%20draft.pdf

  1. # We will be using mice library in r 
  2. library(mice) 
  3. # Deterministic regression imputation via mice 
  4. imp <- mice(mydata, method = "norm.predict", m = 1) 
  5.  
  6. # Store data 
  7. data_imp <- complete(imp) 
  8.  
  9. # Multiple Imputation 
  10. imp <- mice(mydata, m = 5) 
  11.  
  12. #build predictive model 
  13. fit <- with(data = imp, lm(y ~ x + z)) 
  14.  
  15. #combine results of all 5 models 
  16. combine <- pool(fit) 

这是迄今为止最优选的插补要领,由于它很是易于行使,而且在插补模子正确的环境下它不会引入毛病。

七、分类变量插补

  • 众数插补法算是一个行动,但它必定会引入毛病。
  • 缺失值可以被视为一个单独的分类种别。我们可觉得它们建设一个新种别并行使它们。这是最简朴的要领了。
  • 猜测模子:这里我们建设一个猜测模子来估算用来更换缺失数据位置的值。这种环境下,我们将数据集分为两组:一组剔除穷乏数据的变量(实习组),而另一组则包罗缺失变量(测试组)。我们可以用逻辑回归和ANOVA等要领来举办猜测。
  • 多重插补法。

八、KNN(K近邻)

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读