机器学习中的相似性度量：距离，原来还有这么多类

发布时间：2021-03-06 08:47:32 所属栏目：大数据来源：网络整理

导读：来自：苍梧 - 博客园链接：http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html 在做分类时经常必要估算差异样本之间的相似性怀抱(SimilarityMeasurement)，这时凡是回收的要领就是计较样本间的“间隔”(Distance)。回收什么样的要领计较间隔是

(2)两个n维样本点a(x11,x1n)和b(x21,x2n)的夹角余弦

相同的，对付两个n维样本点a(x11,x2n)，可以行使相同于夹角余弦的观念来权衡它们间的相似水平。

即：

夹角余弦取值范畴为[-1,1]。夹角余弦越大暗示两个向量的夹角越小，夹角余弦越小暗示两向量的夹角越大。当两个向量的偏向重适时夹角余弦取最大值1，当两个向量的偏向完全相反夹角余弦取最小值-1。

夹角余弦的详细应用可以参阅参考文献[1]。

(3)Matlab计较夹角余弦

例子：计较(1,0)、( 1,1.732)、(-1,0)两两间的夹角余弦

X= [1 0 ; 1 1.732 ; -1 0]

D= 1- pdist(X,'cosine')? % Matlab中的pdist(X,'cosine')获得的是1减夹角余弦的值

功效：

D=

??? 0.5000??-1.0000?? -0.5000

8、汉明间隔(Hammingdistance)

(1)汉明间隔的界说

两个等长字符串s1与s2之间的汉明间隔界说为将个中一个变为其它一个所必要作的最小替代次数。譬喻字符串“1111”与“1001”之间的汉明间隔为2。

应用：信息编码（为了加强容错性，应使得编码间的最小汉明间隔尽也许大）。

(2)Matlab计较汉明间隔

Matlab中2个向量之间的汉明间隔的界说为2个向量差异的分量所占的百分比。

例子：计较向量(0,2)两两间的汉明间隔

X = [0 0 ; 1 0 ; 0 2];

D = PDIST(X,'hamming')

功效：

D=

??? 0.5000???0.5000??? 1.0000

9、杰卡德相似系数(Jaccardsimilarity coefficient)

(1) 杰卡德相似系数

两个荟萃A和B的交集元素在A，B的并齐集所占的比例，称为两个荟萃的杰卡德相似系数，用标记J(A,B)暗示。

杰卡德相似系数是权衡两个荟萃的相似度一种指标。

(2) 杰卡德间隔

与杰卡德相似系数相反的观念是杰卡德间隔(Jaccarddistance)。杰卡德间隔可用如下公式暗示：

杰卡德间隔用两个荟萃中差异元素占全部元素的比例来权衡两个荟萃的区分度。

(3)杰卡德相似系数与杰卡德间隔的应用

可将杰卡德相似系数用在权衡样本的相似度上。

样本A与样本B是两个n维向量，并且全部维度的取值都是0或1。譬喻：A(0111)和B(1011)。我们将样本当作是一个荟萃，1暗示荟萃包括该元素，0暗示荟萃不包括该元素。

p：样本A与B都是1的维度的个数

q：样本A是1，样本B是0的维度的个数

r：样本A是0，样本B是1的维度的个数

s：样本A与B都是0的维度的个数

那么样本A与B的杰卡德相似系数可以暗示为：

这里p+q+r可领略为A与B的并集的元素个数，而p是A与B的交集的元素个数。

而样本A与B的杰卡德间隔暗示为：

(4)Matlab计较杰卡德间隔

Matlab的pdist函数界说的杰卡德间隔跟我这里的界说有一些不同，Matlab中将其界说为差异的维度的个数占“非全零维度”的比例。

例子：计较(1,1,-1,0)、(-1,0)两两之间的杰卡德间隔

X= [1 1 0; 1 -1 0; -1 1 0]

D= pdist( X,'jaccard')

功效

D=

0.5000??? 0.5000???1.0000

10、相相关数( Correlation coefficient )与相干间隔(Correlation distance)

(1)相相关数的界说

相相关数是权衡随机变量X与Y相干水平的一种要领，相相关数的取值范畴是[-1,1]。相相关数的绝对值越大，则表白X与Y相干度越高。当X与Y线性相干时，相相关数取值为1（正线性相干）或-1（负线性相干）。

(2)相干间隔的界说

（编辑：湖南网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/5

首页

尾页

将大数据转化为营销收	Regem Marr研祥金码机
先用户再客户让AI真正	航空航天类专业解读智