在Python中:
- df.Column_Name.fillna(df.Column_Name.mean(),inplace = True)
- df.Column_Name.fillna(df.Column_Name.median(),inplace = True)
- df.Column_Name.fillna(df.Column_Name.mode(),inplace = True)
均匀值、中位数、模式估算的弱点—它镌汰了估算变量的方差,也缩小了尺度偏差,这使大大都假设检讨和置信区间的计较无效。它忽略了变量之间的相干性,也许太过暗示和低估某些数据。
逻辑回归
以一个统计模子为例,它行使逻辑函数来建模因变量。因变量是二进制因变量,个中两个值标志为“0”和“1”。逻辑函数是一个S函数,个中输入是对数几率,输出是概率。(譬喻:Y:通过测验的概率,X:进修时刻.S函数的图形如下图)

图片来自维基百科:逻辑回归
在Python中:
- from sklearn.pipeline import Pipeline
- from sklearn.preprocessing import Imputer
- from sklearn.linear_model import LogisticRegression
-
- imp=Imputer(missing_values="NaN", strategy="mean", axis=0)
- logmodel = LogisticRegression()
- steps=[('imputation',imp),('logistic_regression',logmodel)]
- pipeline=Pipeline(steps)
- X_train, X_test, Y_train, Y_test=train_test_split(X, y, test_size=0.3,random_state=42)
- pipeline.fit(X_train, Y_train)
- y_pred=pipeline.predict(X_test)
- pipeline.score(X_test, Y_test)
逻辑回归的弱点:
- 因为强调其猜测精确性的究竟,轻易太过自信或太过拟合。
- 当存在多个或非线性决定界线时,每每示意不佳。
- 线性回归
以一个统计模子为例,它行使线性猜测函数来模仿因变量。因变量y和自变量x之间的相关是线性的。在这种环境下,系数是线的斜率。点到线形成的间隔标志为(绿色)是偏差项。

图片来自维基百科:线性回归

图片来自维基百科:线性回归
在Python中:
- from sklearn.linear_model import LinearModel
- from sklearn.preprocessing import Imputer
- from sklearn.pipeline import Pipeline
-
- imp=Imputer(missing_values="NaN", strategy="mean", axis=0)
- linmodel = LinearModel()
- steps=[('imputation',imp),('linear_regression',linmodel)]
- pipeline=Pipeline(steps)
- X_train, X_test, Y_train, Y_test=train_test_split(X, y, test_size=0.3,random_state=42)
- pipeline.fit(X_train, Y_train)
- y_pred=pipeline.predict(X_test)
- pipeline.score(X_test, Y_test
线性回归的弱点:
KNN(K-近邻算法)
这是一种普及用于缺失数据插补的模子。它被普及行使的缘故起因是它可以处理赏罚持续数据和分类数据。
此模子是一种非参数要领,可将数据分类到最近的重度加权邻人。用于持续变量的间隔是欧几里德,对付分类数据,它可所以汉明间隔(Hamming Distance)。在下面的例子中,绿色圆圈是Y.它和赤色三角形分别到一路而不是蓝色方块,由于它四面有两个赤色三角形。

图片来自维基百科:KNN
- from sklearn.neighbors import KNeighborsClassifier
- from sklearn.preprocessing import Imputer
- from sklearn.pipeline import Pipeline
-
- k_range=range(1,26)
-
- for k in k_range:
- imp=Imputer(missing_values=”NaN”,strategy=”mean”, axis=0)
- knn=KNeighborsClassifier(n_neighbors=k)
- steps=[(‘imputation’,imp),(‘K-NearestNeighbor’,knn)]
- pipeline=Pipeline(steps)
- X_train, X_test, Y_train,Y_test=train_test_split(X, y, test_size=0.3, random_state=42)
- pipeline.fit(X_train, Y_train)
- y_pred=pipeline.predict(X_test)
- pipeline.score(X_test, Y_test)
KNN的弱点:
- 在较大的数据集上淹灭时刻长
- 在高维数据上,精度也许会严峻低落
多重插补
多个插补或MICE算法通过运行多个回归模子来事变,而且每个缺失值均按照调查到(非缺失)的值有前提地建模。多次估算的强盛之处在于它可估算持续,二进制,无序分类和有序分类数据的殽杂。
多重插补的步调是:
- 用鼠标输入数据()
- 行使with()构建模子
- 行使pool()搜集全部模子的功效
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|