加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 教程 > 正文

数据发掘规模十大经典算法之—CART算法(附代码)

发布时间:2018-10-28 16:49:45 所属栏目:教程 来源:大数据首席数据师
导读:简介 CART与C4.5相同,是决定树算法的一种。另外,常见的决定树算法尚有ID3,这三者的差异之处在于特性的分别: ID3:特性分别基于信息增益 C4.5:特性分别基于信息增益比 CART:特性分别基于基尼指数 根基头脑 CART假设决定树是二叉树,内部结点特性的取

简介

CART与C4.5相同,是决定树算法的一种。另外,常见的决定树算法尚有ID3,这三者的差异之处在于特性的分别:

  • ID3:特性分别基于信息增益
  • C4.5:特性分别基于信息增益比
  • CART:特性分别基于基尼指数

根基头脑

CART假设决定树是二叉树,内部结点特性的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支。这样的决定树等价于递归地二分每个特性,将输入空间即特性空间分别为有限个单位,并在这些单位上确定猜测的概率漫衍,也就是在输入给定的前提下输出的前提概率漫衍。

CART算法由以下两步构成:

  • 决定树天生:基于实习数据集天生决定树,天生的决定树要只管大;
  • 决定树剪枝:用验证数据集对已天生的树举办剪枝并选择最优子树,这时丧失函数最小作为剪枝的尺度。

CART决定树的天生绩是递归地构建二叉决定树的进程。CART决定树既可以用于分类也可以用于回归。本文我们仅接头用于分类的CART。对分类树而言,CART用Gini系数最小化准则来举办特性选择,天生二叉树。 CART天生算法如下:

  • 输入:实习数据集D,遏制计较的前提:
  • 输出:CART决定树。

按照实习数据集,从根结点开始,递归地对每个结点举办以下操纵,构建二叉决定树:

设结点的实习数据集为D,计较现有特性对该数据集的Gini系数。此时,对每一个特性A,对其也许取的每个值a,按照样本点对A=a的测试为“是”或 “否”将D支解成D1和D2两部门,计较A=a时的Gini系数。

在全部也许的特性A以及它们全部也许的切分点a中,选择Gini系数最小的特性及其对应的切分点作为最优特性与最优切分点。依最优特性与最优切分点,从现结点天生两个子结点,将实习数据集依特性分派到两个子结点中去。

对两个子结点递归地挪用步调l~2,直至满意遏制前提。

天生CART决定树。

算法遏制计较的前提是结点中的样本个数小于预定阈值,或样本集的Gini系数小于预定阈值(样本根基属于统一类),可能没有更多特性。

代码

代码已在github上实现(挪用sklearn),这里也贴出来

数据发掘规模十大经典算法之—CART算法(附代码)

测试数据集为MNIST数据集,获取地点为train.csv

运行功效

数据发掘规模十大经典算法之—CART算法(附代码)

【编辑保举】

  1. 张峰:工信部将落实四方面计谋 敦促大数据财富成长
  2. 大数据和人工智能的将来可以归结为一件事
  3. 从口试官的角度谈谈大数据口试
  4. 具体解读:大数据说明的进修
  5. 大数据技能在金融行业中的应用
【责任编辑:未丽燕 TEL:(010)68476606】
点赞 0

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读