加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 建站 > 正文

非监视进修最强攻略

发布时间:2019-10-16 09:32:25 所属栏目:建站 来源:SAMshare
导读:MLK,即Machine Learning Knowledge,本专栏在于对呆板进修的重点常识做一次梳理,便于日后复习,内容首要来自于《百面呆板进修》一书,团结本身的履历与思索做的一些总结与归纳。本次首要讲授的内容是呆板进修里的非监视进修经典道理与算法,非监视,也就

高斯殽杂模子的焦点头脑,每个单独的分模子都是尺度高斯漫衍模子,其均值和方差都是待预计的参数,尚有一个参数π,可以领略为权重(or 天生数据的概率),其公式为:

非监视进修最强攻略

它是一个天生式模子,而且通过EM算法框架来求解,详细的迭代进程如下:

起首,初始随机选择各个参数的值(总共3个参数,均值、方差和权重),然后迭代下面两步,直到收敛:

1)E步调:按照当前的参数,计较每个点由某个分模子天生的概率。

2)M步调:行使E步调预计出来的概率,来改造每个分模子的均值、方差和权重。

高斯殽杂模子与K-Mean算法的沟通点:

1)他们都是用于聚类的算法,都必要指定K值;

2)都是行使EM算法来求解;

3)每每都是获得局部最优。

而它对比于K-Mean算法的利益,就是它还可以用于概率密度的预计,并且可以用于天生新的样本点。

天生式模子(Generative Model):春连系漫衍概率p(x,y)举办建模,常见天生式

模子有:隐马尔可夫模子HMM、朴实贝叶斯模子、高斯殽杂模子GMM、LDA

等。

鉴别式模子(Discriminative Model):直接对前提概率p(y|x)举办建模,常见判

别模子有:线性回归、决定树、支持向量机SVM、k近邻、神经收集等。

自组织映射神经收集

自组织映射神经收集(Self-Organizing Map,SOM)是无监视进修要领中的一类重要要领,可以用于聚类、高维可视化、数据压缩、特性提取等等用途,由于提出者是Teuvo Kohonen传授,因此也被称为Kohonen收集。

讲SOM之前,先科普一些生物学研究:

1)在人脑的感知通道上,神经元组织是有序分列的;

2)大脑皮层会对外界特定的信息在特定的地区发生欢快;

3)在生物神经体系中存在着一种侧克制征象,即一个神经细胞欢快后,会对周围其他神经细胞发生克制浸染,这种克制浸染会使得神经细胞之间呈现竞争,其功效是某些得胜,某些失败,示意则为得胜细胞欢快,失败细胞克制。

而我们的SOM就是对以上的生物神经体系成果的一种人工神经收集模子。

SOM本质上是一个两层神经收集,包括输入层和输出层。输入层模仿感知外界输入信息,输出层模仿做出相应的大脑皮层。

1)输出层中,神经元的个数就是聚类的个数;

2)实习时回收"竞争进修"的方法,每个输入的样本,城市在输出层中找到与之最为匹配的节点,这个节点被称之为"激活节点"(winning neuron);

3)紧接着回收随机梯度降落法更新激活节点的参数,同时适内地更新激活节点四面的节点(会按照间隔远近选择更新的"力度");

4)上面说到的"竞争进修",可以通过神经元之间的横向克制毗连(负反馈路径)来实现。

一样平常,SOM模子的常见收集布局有两种,别离是一维和二维的:

非监视进修最强攻略

SOM的自组织进修进程,可以归纳为下面几个子进程:

1)初始化:全部毗连权重都用小的随机值举办初始化。

2)竞争:神经元计较每一个输入模式各自的鉴别函数值,并公布具有最小鉴别函数值的特定神经元为胜利者,每个神经元j的鉴别函数为:

非监视进修最强攻略

3)相助:得胜的神经元抉择了欢快神经元拓扑邻域的空间位置,确定了激活节点后,更新邻近的节点。

4)顺应:恰当调解相干欢快神经元的毗连权重,使得得胜神经元对相似输入模式的后续应用的相应加强。

5)迭代第2-4步,直到特性映射趋于不变。

比及最后迭代竣事之后,每个样本所激活的神经元就是它对应的种别。

SOM与K-Mean算法的区别:

1)K-Mean算法必要事先确定好K值,而SOM不必要;

2)K-Mean算法为每个输入数据找到一个最相似的类,只更新这个类的参数;而SOM则会更新邻近的节点,以是,K-Mean算法受噪声影响较量大,SOM则也许精确性方面会差一些;

3)SOM的可视化很好,有优雅的拓扑相关图。

怎样实习参数

1)设定输出层神经元的数目:假如不清晰,可以尽也许设定较多的节点数。

2)计划输出节点的分列:对付差异的题目,事先选择好模式。

3)初始化权值。

4)计划拓扑邻域:拓扑邻域的计划原则是使得邻域不绝缩小,从而输出平面上相邻神经元对应的权向量既有区别又有相等的相似度,从而担保得胜节点对某一类模式发生最大相应时,其邻域节点也发生较大相应。

5)计划进修率:进修率是一个递减函数,可以团结拓扑邻域一路思量。在实习开始时,可以选择较大的值,这样子较量快降落,后头逐步镌汰。

聚类算法的评估指标

聚类算法不像有监视进修有一个target,更多的都是没有方针的,以是评估指标也是纷歧样的,下面先容几种常用的评估指标:

1)外观系数(Silhouette Coefficient)

silhouette 是一个权衡一个结点与它属聚类相较于其余聚类的相似水平,取值范畴-1到1,值越大表白这个结点更匹配其属聚类而不与相邻的聚类匹配。假如大大都结点都有很高的silhouette value,那么聚类恰当。若很多点都有低可能负的值,声名分类过多可能过少。

界说

外观系数团结了凝结度和疏散度,其计较步调如下:

对付第i个工具,计较它到所属簇中全部其他工具的均匀间隔,记为ai(浮现凝结度)

对付第i个工具和不包括该工具的恣意簇,记为bi(浮现疏散度)

第i个工具的外观系数为si=(bi-ai)/max(ai,bi)

2)Calinski-Harabaz指数

假如标签是未知的,sklearn.metrics.calinski_harabaz_score则可以行使Calinski-Harabaz指数来评估模子,个中较高的Calinski-Harabaz分数与具有更好界说的聚类的模子相干。

利益:

  • 当集群麋集且疏散好时,分数更高,这与集群的尺度观念有关。
  • 得分快速计较

弱点:

  • 凸群的Calinski-Harabaz指数凡是高于簇的其他观念,譬喻通过DBSCAN得到的基于密度的集群。

3)Adjusted Rand index(调解后兰德指数)

该指标是权衡两个赋值相似度的函数,忽略分列组合

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读