注:以上数据来自imputeTS库的tsAirgap;插补数据被标红。
- library(imputeTS)
-
- na.random(mydata) # Random Imputation
- na.locf(mydata, option = "locf") # Last Obs. Carried Forward
- na.locf(mydata, option = "nocb") # Next Obs. Carried Backward
- na.interpolation(mydata) # Linear Interpolation
- na.seadec(mydata, algorithm = "interpolation") # Seasonal Adjustment then Linear Interpolation
四、均值,中位数与众数
计较整体均值、中位数或众数是一种很是根基的插补要领,它是独一没有操作时刻序列特性或变量相关的测试函数。该要领计较起来很是快速,但它也有明明的弱点。个中一个弱点就是,均值插补会镌汰数据的变革差别(方差)。
- library(imputeTS)
-
- na.mean(mydata, option = "mean") # Mean Imputation
- na.mean(mydata, option = "median") # Median Imputation
- na.mean(mydata, option = "mode") # Mode Imputation
-
- In Python
- from sklearn.preprocessing import Imputer
- values = mydata.values
- imputer = Imputer(missing_values=’NaN’, strategy=’mean’)
- transformed_values = imputer.fit_transform(values)
-
- # strategy can be changed to "median" and “most_frequent”
五、线性回归
起首,行使相相关数矩阵可以或许选出一些缺失数据变量的猜测变量。从中选择最靠谱的猜测变量,并将其用于回归方程中的自变量。缺失数据的变量则被用于因变量。自变量数据完备的那些视察行被用于天生回归方程;厥后,该方程则被用于猜测缺失的数据点。在迭代进程中,我们插入缺失数据变量的值,再行使全部数据行来猜测因变量。一再这些步调,直到上一步与这一步的猜测值险些没有什么不同,也即收敛。
该要领“理论上”提供了缺失数据的精采预计。然而,它有几个弱点也许比利益还值得存眷。起首,由于替代值是按照其他变量猜测的,他们倾向于“过好”地组合在一路,因此尺度差会被缩小。我们还必需假设回归用到的变量之间存在线性相关——而现实上他们之间也许并不存在这样的相关。
六、多重插补
- 插补:将不完备数据集缺失的视察行估算添补m次(图中m=3)。请留意,添补值是从某种漫衍中提取的。模仿随机抽取并不包括模子参数的不确定性。更好的要领是回收马尔科夫链蒙特卡洛模仿(MCMC,Markov Chain Monte Carlo Simulation)。这一步调将天生m个完备的数据集。
- 说明:别离对(m个)每一个完备数据集举办说明。
- 归并:将m个说明功效整合为最终功效。

来历:http://www.stefvanbuuren.nl/publications/mice%20in%20r%20-%20draft.pdf
- # We will be using mice library in r
- library(mice)
- # Deterministic regression imputation via mice
- imp <- mice(mydata, method = "norm.predict", m = 1)
-
- # Store data
- data_imp <- complete(imp)
-
- # Multiple Imputation
- imp <- mice(mydata, m = 5)
-
- #build predictive model
- fit <- with(data = imp, lm(y ~ x + z))
-
- #combine results of all 5 models
- combine <- pool(fit)
这是迄今为止最优选的插补要领,由于它很是易于行使,而且在插补模子正确的环境下它不会引入毛病。
七、分类变量插补
- 众数插补法算是一个行动,但它必定会引入毛病。
- 缺失值可以被视为一个单独的分类种别。我们可觉得它们建设一个新种别并行使它们。这是最简朴的要领了。
- 猜测模子:这里我们建设一个猜测模子来估算用来更换缺失数据位置的值。这种环境下,我们将数据集分为两组:一组剔除穷乏数据的变量(实习组),而另一组则包罗缺失变量(测试组)。我们可以用逻辑回归和ANOVA等要领来举办猜测。
- 多重插补法。
八、KNN(K近邻)
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|