第10章-基于树的方法(1)-生成树
分别被蓝线标注。牢记我们候选分另外特征,分别区老是被平行于坐标轴的线所支解的。就上面的例子说,我们会认为是个好的分别,由于左手边较量“纯”了,根基都是 x 类,只有2列属于 o 。右手边同样比“较纯”。 直觉上选择每个分别节点的时辰我们都想天生“纯”的节点。假如我们再往更深一条理试探,我们会再多两个分别,如下图 此刻,如您所见,坐上地区叶节点仅包括 x 类。因此纯度是100%的,没有其他的分类呈现。一旦我们到达这个程度,我们就不必再举办更近一步的分别了。由于全部的分别都是100%的纯度。在此实习集上,更多的分别不再有更好的功效,尽量也许在测试集上会有所差异。 10.2 不纯度的丈量公式不纯度公式是用来丈量包括差异分类点分别地区的“纯的水平”的。假设有K个差异的种别,那么就会有
不纯度的丈量公式可以被界说成差异的情势,可是最根基的要要素是要满意下面的三个要素。 界说:一个不纯度的丈量公式 Φ ,对付全部K 元组(
界说:给定一个不纯度的丈量公式 Φ ,对付 t 节点不纯度为 i(t) : i(t)=Φ( p(1|t),p(2|t),p(k|t) ) 式中,p(j|t) 是给定节点t中的一个点为 j 类的后验概率预计。一旦我们知道了i(t),我们就可以界说对付节点 t,分别优度,界说为 Φ(s,t):
式中,可以看出 Δi(s,t) 是节点 t 的不纯度,与阁下子节点不纯度加权求和之间的差值。权值
再来看一下下图例子: 假设紫色阴影的左侧地区要被继承分别,上半部门(x)是左侧子节点,下半部门(o)是右侧子节点。那么此时左侧子节点的比例为8/10,右侧为2/10. 分类树算法会遍历全部候选分别集,找到最大△i(s,t)对应的最优分别。 接下来我们界说 I(t) = i(t) p(t),即,节点t 的加权不纯度值。 p(t)与上述中阁下子节点的权值界说同等。虽然假如节点t 是总体的第一个分别获得的子节点,那么权值是总体的样本中被被分别到节点t 的样本的占比。 那么对付一个树T,不纯度的总丈量界说为 , I(T): 这是全部叶节点的加权求和,留意不是全部节点,是叶节点荟萃T’。 且对付任何节点有: 进而,我们界说一个父节点与两个子节点之间的不纯度之差:(我们获得了一个递归公式) 最后,我们揭开了不纯度怀抱的隐秘面纱… 下面先容也许会常常行使的不纯度怀抱公式:
另一种要领:The Twoing Rule另一种分类树的破碎要领是“the Twoing Rule”. 与上述的不纯度怀抱公式差异。 直觉上看,在两个子节点的类此外漫衍应该尽也许的差异,而且落到子节点中的数据占比应该较量平衡。 The twoing rule: 对付节点 t,选择一个破碎是使下面值最大的环境: 当我们把一个节点破碎成两个子节点时,我们但愿每个分类的后验概率尽也许的差异。假如差别到达最大,则每个分类都是趋于更纯的。 (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |