加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

没有美满的数据插补法,只有最得当的

发布时间:2018-10-25 04:37:04 所属栏目:教程 来源:大数据文摘
导读:大数据文摘出品 编译:张秋玥、胡笳、夏雅薇 数据缺失是数据科学家在处理赏罚数据时常常碰着的题目,本文作者基于差异的情境提供了响应的数据插补办理步伐。没有美满的数据插补法,但总有一款更得当当下环境。 我在数据整理与试探性说明中碰着的最常见题目之一

按照数据范例的差异,间隔怀抱也不尽沟通:

  • 持续数据:最常用的间隔怀抱有欧氏间隔,曼哈顿间隔以及余弦间隔。
  • 分类数据:汉明(Hamming)间隔在这种环境较量常用。对付全部分类属性的取值,假如两个数据点的值差异,则间隔加一。汉明间隔现实上与属性间差异取值的数目同等。

KNN算法最吸引人的特点之一在于,它易于领略也易于实现。其非参数的特征在某些数据很是“不通俗”的环境下很是有上风。

KNN算法的一个明明弱点是,在说明大型数据集时会变得很是耗时,由于它会在整个数据齐集搜刮相似数据点。另外,在高维数据齐集,最近与最远邻人之间的不同很是小,因此KNN的精确性会低落。

  1. library(DMwR) 
  2. knnOutput <- knnImputation(mydata) 
  3.  
  4. In python 
  5. from fancyimpute import KNN     
  6.  
  7. # Use 5 nearest rows which have a feature to fill in each row's missing features 
  8. knnOutput = KNN(k=5).complete(mydata) 

在上述要领中,多重插补与KNN最为普及行使,而因为前者更为简朴,因此其凡是更受青睐。

相干报道:https://towardsdatascience.com/how-to-handle-missing-data-8646b18db0d4

【本文是51CTO专栏机构大数据文摘的原创文章,微信公家号“大数据文摘( id: BigDataDigest)”】

     大数据文摘二维码

戳这里,看该作者更多好文

【编辑保举】

  1. 敢啃“硬骨头”,开源漫衍式数据库TiDB怎样炼成?
  2. 三行Python代码,让数据预处理赏罚速率进步2到6倍
  3. Facebook遭黑客进攻,5万万用户数据面对风险
  4. 微软的数据湖也凉凉了
  5. 假如是个穷光蛋:怎样从零开始进修成为一个数据科学家?
【责任编辑:赵宁宁 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读