加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

呆板进修中的相似性怀抱:间隔,原本尚有这么多类

发布时间:2021-03-06 15:42:30 所属栏目:大数据 来源:网络整理
导读:来自:苍梧 - 博客园 链接:http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html 在做分类时经常必要估算差异样本之间的相似性怀抱(SimilarityMeasurement),这时凡是回收的要领就是计较样本间的“间隔”(Distance)。回收什么样的要领计较间隔是

?


个中p是一个变参数。


当p=1时,就是曼哈顿间隔

当p=2时,就是欧氏间隔

当p→∞时,就是切比雪夫间隔


按照变参数的差异,闵氏间隔可以暗示一类的间隔。


(2)闵氏间隔的弱点


闵氏间隔,包罗曼哈顿间隔、欧氏间隔和切比雪夫间隔都存在明明的弱点。


举个例子:二维样本(身高,体重),个中身高范畴是150~190,体重范畴是50~60,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵氏间隔(无论是曼哈顿间隔、欧氏间隔或切比雪夫间隔)便是a与c之间的闵氏间隔,可是身高的10cm真的等价于体重的10kg么?因此用闵氏间隔来权衡这些样本间的相似度很有题目。


简朴说来,闵氏间隔的弱点首要有两个:(1)将各个分量的量纲(scale),也就是“单元”看成沟通的对待了。(2)没有思量各个分量的漫衍(祈望,方差等)也许是差异的。


(3)Matlab计较闵氏间隔


例子:计较向量(0,2)两两间的闵氏间隔(以变参数为2的欧氏间隔为例)


X= [0 0 ; 1 0 ; 0 2]

D= pdist(X,'minkowski',2)

功效:

D=

??? 1.0000???2.0000??? 2.2361


5、尺度化欧氏间隔(Standardized Euclidean distance )


(1)尺度欧氏间隔的界说


尺度化欧氏间隔是针对简朴欧氏间隔的弱点而作的一种改造方案。尺度欧氏间隔的思绪:既然数据各维分量的漫衍纷歧样,好吧!那我先将各个分量都“尺度化”到均值、方差相称吧。均值和方差尺度化到几多呢?这里先温习点统计学常识吧,假设样本集X的均值(mean)为m,尺度差(standarddeviation)为s,那么X的“尺度化变量”暗示为:


并且尺度化变量的数学祈望为0,方差为1。因此样本集的尺度化进程(standardization)用公式描写就是:


尺度化后的值 =? ( 尺度化前的值? - 分量的均值 ) /分量的尺度差


颠末简朴的推导就可以获得两个n维向量a(x11,x2n)间的尺度化欧氏间隔的公式:


假如将方差的倒数当作是一个权重,这个公式可以当作是一种加权欧氏间隔(WeightedEuclidean distance)。


(2)Matlab计较尺度化欧氏间隔


例子:计较向量(0,2)两两间的尺度化欧氏间隔 (假设两个分量的尺度不同离为0.5和1)


X= [0 0 ; 1 0 ; 0 2]

D= pdist(X,'seuclidean',[0.5,1])

功效:

D=

??? 2.0000???2.0000??? 2.8284


6. 马氏间隔(MahalanobisDistance)


(1)马氏间隔界说


有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则个中样本向量X到u的马氏间隔暗示为:


而个中向量Xi与Xj之间的马氏间隔界说为:


若协方差矩阵是单元矩阵(各个样本向量之间独立同漫衍),则公式就成了:


也就是欧氏间隔了。


若协方差矩阵是对角矩阵,公式酿成了尺度化欧氏间隔。


(2)马氏间隔的优弱点:量纲无关,解除变量之间的相干性的滋扰。


(3)Matlab计较(1 2),( 1 3),( 2 2),( 3 1)两两之间的马氏间隔


X = [1 2; 1 3; 2 2; 3 1]

Y = pdist(X,'mahalanobis')

?

功效:

Y=

??? 2.3452???2.0000??? 2.3452??? 1.2247???2.4495??? 1.2247


7、夹角余弦(Cosine)


有没有搞错,又不是学几许,怎么扯到夹角余弦了?列位看官稍安勿躁。几许中夹角余弦可用来权衡两个向量偏向的差别,呆板进修中借用这一观念来权衡样本向量之间的差别。


(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读