加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

Python数据说明基本:非常值检测和处理赏罚

发布时间:2018-08-17 13:13:49 所属栏目:教程 来源:佚名
导读:技能沙龙 | 邀您于8月25日与国美/AWS/转转三位专家配合切磋小措施电商拭魅战 在呆板进修中,非常检测和处理赏罚是一个较量小的分支,可能说,是呆板进修的一个副产品,由于在一样平常的猜测题目中,模子凡是是对整体样本数据布局的一种表达方法,这种表达方法凡是抓住

优弱点:

  • (1)基于线性和靠近线性伟大度(k均值)的聚类技能来发明离群点也许是高度有用的;
  • (2)簇的界说凡是是离群点的补,因此也许同时发明簇和离群点;
  • (3)发生的离群点集和它们的得分也许很是依靠所用的簇的个数和数据中离群点的存在性;
  • (4)聚类算法发生的簇的质量对该算法发生的离群点的质量影响很是大。

着实以上说到聚类要领的本意是是无监视分类,并不是为了探求离群点的,只是刚好它的成果可以实现离群点的检测,算是一个衍生的成果。

除了以上说起的要领,尚有两个专门用于检测非常点的要领较量常用:One Class SVM和Isolation Forest,具体内容不举办深入研究。

检测到了非常值,我们必要对其举办必然的处理赏罚。而一样平常非常值的处理赏罚要领可大抵分为以下几种:

  • 删除含有非常值的记录:直接将含有非常值的记录删除;
  • 视为缺失值:将非常值视为缺失值,操作缺失值处理赏罚的要领举办处理赏罚;
  • 均匀值批改:可用前后两个视察值的均匀值批改该非常值;
  • 不处理赏罚:直接在具有非常值的数据集长举办数据发掘;

是否要删除非常值可按照现实环境思量。由于一些模子对非常值不很敏感,纵然有非常值也不影响模子结果,可是一些模子好比逻辑回归LR对非常值很敏感,假如不举办处理赏罚,也许会呈现过拟合等很是差的结果。

以上是对非常值检测和处理赏罚要领的汇总。

通过一些检测要领我们可以找到非常值,但所得功效并不是绝对正确的,详细环境还需本身按照营业的领略加以判定。同样,对付非常值如那里理赏罚,是该删除,批改,照旧不处理赏罚也需团结现实环境思量,没有牢靠的。

【编辑保举】

  1. TOP 3大开源Python数据说明器材!
  2. 必看的考研数据说明陈诉!官方宣布!
  3. 斯坦福开源Weld:高效实现数据说明的端到端优化
  4. 从零转行数据说明的切身经验
  5. 转行数据说明的一份进修清单
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读