加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

第10章-基于树的方法(1)-生成树

发布时间:2021-05-19 14:07:54 所属栏目:大数据 来源:网络整理
导读:原文参考:https://onlinecourses.science.psu.edu/stat857/node/22 一,本章简介 1,本章首要进修方针 理办理策树的根基观念 领略组成决定树的三个根基元素 领略’不纯度’及其他怀抱公式的界说 知道怎样预计每个树节点的各个所属分类的后验概率 领略基于树
副问题[/!--empirenews.page--]

原文参考:https://onlinecourses.science.psu.edu/stat857/node/22

一,本章简介

1,本章首要进修方针

  • 理办理策树的根基观念
  • 领略组成决定树的三个根基元素
  • 领略’不纯度’及其他怀抱公式的界说
  • 知道怎样预计每个树节点的各个所属分类的后验概率
  • 领略基于树的分类要领的利益
  • 领略实习偏差(或称再代入偏差) 和 价钱伟大度丈量要领,知道它们的区别,以及为什么要先容这种要领
  • 领略 weakest-link pruning (等价价钱伟大度剪枝)
  • 领略剪枝后的最优子树都是相互嵌入的,可以被递归地获取
  • 领略基于交错验证来选择伟大性的参数和最终子树的要领
  • 领略的model averaging目标
  • 领略装袋法(bagging)的步调
  • 领略随机丛林(random forest)的步调
  • 领略晋升法(boosting)的步调

决定树既可以办理回归题目也可以办理分类题目。下面我们首要存眷分类题目。

分类树是与如k近邻等原型法差异的一种要领。原型法的根基头脑是对空间举办分别,并找出一些具有代表性的中心。决定树也差异于线性要领,如线性的鉴别说明、二次鉴别说明和logistic回归。这些要领是用超平面作为分类界线。

分类树是对空间举办层级的分别。从整个空间开始递归地分别成小地区。最后,被分别出来的每个小地区都被赋予了一个类标签。

2,先容(CART)算法

一个医疗案例:

决定树的一个庞大的利益就是结构的分类用具有高度的可表明性。这对付大夫来说是一个很是吸引人的特点。

在这个例子中,病人被分为两类:高风险vs低风险。基于最初的24小时的数据,猜测为高风险的病人也许无法存活高出30天。每个病人第一个24小时内都有19个丈量指标,如血压、年数等。

下图是一个树形分类器,法则及表明如图所示:

sample

这个分类器只存眷了三个丈量指标。对付一些病人,用一个指标就可以确定最终功效。以是,分类树对大夫来说检讨进程很简朴。

10.1 构确立

我们要紧记:树代表了对空间的递归地分别。因此每一个感乐趣的节点都对应原空间的一个子地区中的节点。两个子节点占有了差异的地区,假如归并两个子节点,则归并后的地区也与父节点对应的地区沟通。最后,每个叶节点城市被赋予一个分类。

树形分类器的结构就是从X空间自身开始,不绝的分别出越来越小的子空间。

界说:

我们用X界说特性空间。X是多维欧式空间。然而有些时辰,一些变量也许是分类变量,如性别。CART算法的利益,就是可以用同一的要领处理赏罚数值型变量和分范例变量。而对付大大都其他分类要领来说并不具备这种上风,如LDA。

  • 假设输入变量暗示为:X∈X,包括p个特性, X1,X2,...,Xp
  • 用 t 暗示节点, tL 代表左子节点, tR 代表右子节点。
  • 树种全部节点的集实用 T 暗示,全部叶节点的结实用 T?
  • 一次分别用s暗示,分另外集实用S暗示

按照下图看一下,空间树怎样被分别出来的:

第10章-基于树的要领(1)-天生树

三个根基要素

  • 空间分另外选择,如在哪个节点长举办分别,以及怎样分别?
  • 当我们知道怎样分别天生树的时辰,又在何时可以确定一个终结点并遏制举办分别呢?
  • 我们必需对每一个终结点赋予一个类标签。那么我们又何如赋予这些标签呢?

1) 尺度题目集- 分别空间节点的筹备

如之前所述,假定输入向量 X=(X1,X2,?,Xp),既包括了分类变量也包括了定序变量特性。CART算法使工作变得简朴,由于每次分别仅从一个变量入手。

假如我们有定序变量,如Xj — 那么此处拆分题目可以转化为较量Xj是否小于或便是一个阈值。因此,对付恣意定序变量Xj,题目集Q的同一情势如下:

{Is Xj ≤ c ?},对付任何实数 c.

虽然也有其他情势的分别要领,好比,你也许想问,是否可以形如 X1+X2≤ c ? 这种环境下,分别线不是平行于坐标轴的(分别线是斜率为-1,截距为c的线)。因此,这里我们可以限定题目名目。每个题目均是取一个特性 Xj 与阈值举办较量。

由于实习集是有限的,因此只有有限多个阈值 c 对数据点举办分别。

假如 Xj 是分类变量,取值于{1,2,…,M},那么题目集Q 形如:

{Is Xj ∈ A ?},个中,A 是 {1,M} 的子集.

全部p个特性向量的分别或题目组成了分另外候选荟萃。

综上,第一步就是先确定全部的候选题目。以便在下一步构确立的时辰,可以挑选在哪个节点上用哪个题目来举办分别。

2) 确定分别优度-’goodness of split’

当我们选择题目举办分另外时辰,我们必要丈量该题目下每一个分另外’goodness of split’。这既取决于题目的选择也取决于被分另外节点。这个’goodness of split’ 是用“不纯度”公式来丈量的。

直觉地,当我们分别节点时辰,我们想要使得每个叶节点的地区都更“纯”。换句话说,就是使这个分别地区中的点都尽也许多的属于统一个分类,即,该类占据绝对主导职位。

来看下面的例子。图中有两个分类,x 和 o 。分另外时辰我们先搜查程度变量是否高于或低于一个阈值,如下图

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读