第10章-基于树的方法(1)-生成树
我们先来界说:
于是,对付节点t,假如把全部的分类加起来,我们获得: 而且,对付分类j,假如我们把阁下子节点的样本数加起来,应该便是父节点的样本数: 接下来我们界说类的先验概率为
上述数计较先验概率的一种方法,偶然也也许是预先给定的。好比说,在医疗的例子中,研究者网络患有某一疾病的病人了大量的数据。在网络数据中,患有某一疾病的样本比例也许远高于总体的现实比例。这种环境下,就不太得当行使现实数据计较获得的履历频率。但假如数据是总体中的随机样本,则是可行的。 j 类样本属于节点 t 的前提概率预计为,
假设我们知道怎样获得
那么在节点t下的样本的概率为: 此刻我们就必要知道怎样计较 p(j|t) 了,即节点t下的一个样本属于 j类的前提概率:(留意,此处的前提概率是翻转的,不是p(t|j) )
. 抉择节点所属分类的法则假设我们已经构建了一个树,那么这个决定树是怎样对新的样本点举办分类点呢,步调如下: 那么,构建决定树的时辰是怎样确定一个叶节点(终节点)的类此外呢,步调如下: 假如我们用0-1丧失,那么类简直定法则会很像k均值-我们选择叶节点样本中,呈现频次最多的类可能具有最大后验概率的类作为该节点的类:
假设我们已经有了一个树,并且没个叶节点上也都赋予了分类。此刻我们就必要预计这个树的分类错误率了。 在这个例子中,我们必要先容错分概率的再代入预计 r(t),给定一个落到节点t 的样本,则: 界说
接下来,我们要花点时刻证明假如我们把节点拆分成子节点,那么错分率必然是又晋升的。换句话说,假如用再代入预计计较错误率,那么节点的拆分越多,错误率越小。这就导致了再代入偏差的一个题目:方向更大的树。 证明,对付任何节点t,拆分成子节点
界说 j*=k(t). 10.4 例子(略)10.5 树布局要领的利益
10.6 变量归并今朝为止,我们假设分类树只是平行坐标轴地对空间举办分别。对付这样严酷地分别,会带来什么功效呢? 让我们来看一下下面这个例子: 并且对付分类树的延长要领也是有很多的,好比并不是凭证每个独立变量阈值一一去分另外线性鉴别分类(分别一次就行使了样本点的全部信息)。 再可能说,我们用更伟大的题目,如,线性变量的线性组合 (显然增进了计较劲): 研究好像表白,行使更机动(伟大)的题目纵然没有使功效变坏,也每每不会导致明明更好的分类功效。并且,更机动的题目更轻易导致过拟合题目。 10.7 缺失变量在一些实习样本中,有些变量也许会有缺失值。测试样本中也许也会有。决定树有个很好的步伐处理赏罚缺失值——更换破碎(surrogate splits)。 假设对付节点t ,最优的分别是t,该分别用到了
分类树将会通过找到一个更换破碎点处理赏罚这个题目。通过另一个变量找到另一个分别。遍历全部变量,找到最靠近最优分另外更换。假如更换分别同样存在缺失值,那么继承找次优的取代破碎,以此类推。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |