加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

机器学习中的相似性度量!

发布时间:2021-01-13 09:50:26 所属栏目:大数据 来源:网络整理
导读:在做分类时经常必要估算差异样本之间的相似性怀抱(Similarity Measurement),这时凡是回收的要领就是计较样本间的“间隔”(Distance)。回收什么样的要领计较间隔是很考究,乃至相关到分类的正确与否。 本文的目标就是对常用的相似性怀抱作一个总结。 本文目

?

呆板进修中的相似性怀抱!

?????? 看不出两个公式是等价的?提醒一下:试试用放缩法和夹逼法例来证明。

(3)Matlab计较切比雪夫间隔

例子:计较向量(0,2)两两间的切比雪夫间隔

X = [0 0 ; 1 0 ; 0 2]

D = pdist(X,'chebychev')

功效:

D =

???? 1???? 2???? 2

?


4. 闵可夫斯基间隔(Minkowski Distance)

闵氏间隔不是一种间隔,而是一组间隔的界说。

(1) 闵氏间隔的界说

?????? 两个n维变量a(x11,x2n)间的闵可夫斯基间隔界说为:

?

呆板进修中的相似性怀抱!

个中p是一个变参数。

当p=1时,就是曼哈顿间隔

当p=2时,就是欧氏间隔

当p→∞时,就是切比雪夫间隔

?????? 按照变参数的差异,闵氏间隔可以暗示一类的间隔。

(2)闵氏间隔的弱点

  闵氏间隔,包罗曼哈顿间隔、欧氏间隔和切比雪夫间隔都存在明明的弱点。

  举个例子:二维样本(身高,体重),个中身高范畴是150~190,体重范畴是50~60,有三个样本:a(180,50),b(190,50),c(180,60)。那么a与b之间的闵氏间隔(无论是曼哈顿间隔、欧氏间隔或切比雪夫间隔)便是a与c之间的闵氏间隔,可是身高的10cm真的等价于体重的10kg么?因此用闵氏间隔来权衡这些样本间的相似度很有题目。

?????? 简朴说来,闵氏间隔的弱点首要有两个:(1)将各个分量的量纲(scale),也就是“单元”看成沟通的对待了。(2)没有思量各个分量的漫衍(祈望,方差等)也许是差异的。

(3)Matlab计较闵氏间隔

例子:计较向量(0,2)两两间的闵氏间隔(以变参数为2的欧氏间隔为例)

X = [0 0 ; 1 0 ; 0 2]

D = pdist(X,'minkowski',2)

功效:

D =

??? 1.0000??? 2.0000??? 2.2361



5. 尺度化欧氏间隔 (Standardized Euclidean distance )

(1)尺度欧氏间隔的界说

  尺度化欧氏间隔是针对简朴欧氏间隔的弱点而作的一种改造方案。尺度欧氏间隔的思绪:既然数据各维分量的漫衍纷歧样,好吧!那我先将各个分量都“尺度化”到均值、方差相称吧。均值和方差尺度化到几多呢?这里先温习点统计学常识吧,假设样本集X的均值(mean)为m,尺度差(standard deviation)为s,那么X的“尺度化变量”暗示为:

  并且尺度化变量的数学祈望为0,方差为1。因此样本集的尺度化进程(standardization)用公式描写就是:

呆板进修中的相似性怀抱!

  尺度化后的值 =? ( 尺度化前的值? - 分量的均值 ) /分量的尺度差

  颠末简朴的推导就可以获得两个n维向量a(x11,x2n)间的尺度化欧氏间隔的公式:

呆板进修中的相似性怀抱!

  假如将方差的倒数当作是一个权重,这个公式可以当作是一种加权欧氏间隔(Weighted Euclidean distance)。

(2)Matlab计较尺度化欧氏间隔

例子:计较向量(0,2)两两间的尺度化欧氏间隔 (假设两个分量的尺度不同离为0.5和1)

X = [0 0 ; 1 0 ; 0 2]

D = pdist(X,'seuclidean',[0.5,1])

功效:

D =

??? 2.0000??? 2.0000??? 2.8284

?


6. 马氏间隔(Mahalanobis Distance)

(1)马氏间隔界说

?????? 有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则个中样本向量X到u的马氏间隔暗示为:

?

呆板进修中的相似性怀抱!

?????? 而个中向量Xi与Xj之间的马氏间隔界说为:

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读