加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

第10章-基于树的方法(1)-生成树

发布时间:2021-05-19 14:07:54 所属栏目:大数据 来源:网络整理
导读:原文参考:https://onlinecourses.science.psu.edu/stat857/node/22 一,本章简介 1,本章首要进修方针 理办理策树的根基观念 领略组成决定树的三个根基元素 领略’不纯度’及其他怀抱公式的界说 知道怎样预计每个树节点的各个所属分类的后验概率 领略基于树

我们先来界说:

  1. 样本个数为N,样本的有K个分类, Nj 是属于j类的样本个数,个中, 1≤j≤K. 假如把全部的 Nj 加起来,将获得N。
  2. 对付节点t,t中的样本个数为 N(t),个中,属于j类的样本数为 Nj

于是,对付节点t,假如把全部的分类加起来,我们获得:
∑kj=iNj(t)=N(t)

而且,对付分类j,假如我们把阁下子节点的样本数加起来,应该便是父节点的样本数:
Nj(tL)+Nj(tR)=Nj(t)

接下来我们界说类的先验概率为 πj . 此先验概率凡是通过计较数据中没个分类的占比获得。举例,假如我们想知道种别1的先验概率,我们只必要简朴的计较属于类1的数目占总体数目的百分比, Nj/N . 这个比例又叫做类的履历频率。

上述数计较先验概率的一种方法,偶然也也许是预先给定的。好比说,在医疗的例子中,研究者网络患有某一疾病的病人了大量的数据。在网络数据中,患有某一疾病的样本比例也许远高于总体的现实比例。这种环境下,就不太得当行使现实数据计较获得的履历频率。但假如数据是总体中的随机样本,则是可行的。

j 类样本属于节点 t 的前提概率预计为, p(t|j)=Nj(t)/Nj
显然,
Nj(tL|j)+Nj(tR|j)=Nj(t|j)

假设我们知道怎样获得 p(t|j) ,我们将获得种别 j 和 节点 t 的连系概率:
p(j,t)=πjp(t|j)=πjNj(t)/Nj

那么在节点t下的样本的概率为:
p(t)=∑kj=1p(j,t)=∑kj=1πjNj(t)/Nj

此刻我们就必要知道怎样计较 p(j|t) 了,即节点t下的一个样本属于 j类的前提概率:(留意,此处的前提概率是翻转的,不是p(t|j) )

p(j|t)=p(j,t)/p(t)

.

抉择节点所属分类的法则

假设我们已经构建了一个树,那么这个决定树是怎样对新的样本点举办分类点呢,步调如下:
我们先让样本点按照决定树的法则判定该点会落到哪个叶节点(终节点)。叶节点的类就会赋给这个新的样本点。全部落在一个叶几点的样本点城市被赋予统一个类,这点有点像 k-means 和 其他原型要领。

那么,构建决定树的时辰是怎样确定一个叶节点(终节点)的类此外呢,步调如下:

假如我们用0-1丧失,那么类简直定法则会很像k均值-我们选择叶节点样本中,呈现频次最多的类可能具有最大后验概率的类作为该节点的类:

k(t)=argmaxP(j|t)

假设我们已经有了一个树,并且没个叶节点上也都赋予了分类。此刻我们就必要预计这个树的分类错误率了。 在这个例子中,我们必要先容错分概率的再代入预计 r(t),给定一个落到节点t 的样本,则:
r(t)=1?maxp(j|t)=1?p(k(t)|t)

界说 R(t)=r(t)p(t) ,则全体错分概率的再代入预计 R(T)为
R(T)=∑t∈T′R(t)

接下来,我们要花点时刻证明假如我们把节点拆分成子节点,那么错分率必然是又晋升的。换句话说,假如用再代入预计计较错误率,那么节点的拆分越多,错误率越小。这就导致了再代入偏差的一个题目:方向更大的树。

证明,对付任何节点t,拆分成子节点 tl和tR 后,均有
R(t)≥R(tL)+R(tR)

界说 j*=k(t).

第10章-基于树的要领(1)-天生树

10.4 例子(略)

10.5 树布局要领的利益

  • 犹如我们多次提到的,树布局的要领能以简朴的方法处理赏罚分类变量和定序变量;
  • 分类树偶然可以或许自动的分步调的举办筛选变量和低落伟大度
  • 分类树对付测试的样本点提供了错分类预计
  • 分类树对付有序变量的单调调动是稳固的。分类树的分别是按照阈值,而单调调动并不改变分别节点的阈值
  • 分类树对付非常值和误分类点相对妥当。由于除了数据自己,并不必要计较如均匀值等其他指标
  • 分类树很轻易表明, 出格是在医学规模的应用

10.6 变量归并

今朝为止,我们假设分类树只是平行坐标轴地对空间举办分别。对付这样严酷地分别,会带来什么功效呢?

让我们来看一下下面这个例子:
如图中所示,我们也许更想要把全部的点凭证对角线分别成两类。平行于坐标轴的分别对付这个数据集好像并没那么有用,还必要更多的步调去分别。

第10章-基于树的要领(1)-天生树

并且对付分类树的延长要领也是有很多的,好比并不是凭证每个独立变量阈值一一去分另外线性鉴别分类(分别一次就行使了样本点的全部信息)。

再可能说,我们用更伟大的题目,如,线性变量的线性组合 (显然增进了计较劲):
∑ajxj<=c?

研究好像表白,行使更机动(伟大)的题目纵然没有使功效变坏,也每每不会导致明明更好的分类功效。并且,更机动的题目更轻易导致过拟合题目。
而且,好像行使正确局限的分类树 对比于 在各自节点上分另外优劣 更重要。

10.7 缺失变量

在一些实习样本中,有些变量也许会有缺失值。测试样本中也许也会有。决定树有个很好的步伐处理赏罚缺失值——更换破碎(surrogate splits)。

假设对付节点t ,最优的分别是t,该分别用到了 Xm 变量。那么假如这个变量缺失了怎么办。

分类树将会通过找到一个更换破碎点处理赏罚这个题目。通过另一个变量找到另一个分别。遍历全部变量,找到最靠近最优分另外更换。假如更换分别同样存在缺失值,那么继承找次优的取代破碎,以此类推。

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读