加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

呆板进修中的相似性怀抱!

发布时间:2021-01-10 09:42:40 所属栏目:大数据 来源:网络整理
导读:在做分类时经常必要估算差异样本之间的相似性怀抱(Similarity Measurement),这时凡是回收的要领就是计较样本间的“间隔”(Distance)。回收什么样的要领计较间隔是很考究,乃至相关到分类的正确与否。 本文的目标就是对常用的相似性怀抱作一个总结。 本文目

(3) Matlab计较(1 2),( 1 3),( 2 2),( 3 1)两两之间的马氏间隔

X = [1 2; 1 3; 2 2; 3 1]

Y = pdist(X,'mahalanobis')

?

功效:

Y =

??? 2.3452??? 2.0000??? 2.3452??? 1.2247??? 2.4495??? 1.2247

?


7. 夹角余弦(Cosine)

?????? 有没有搞错,又不是学几许,怎么扯到夹角余弦了?列位看官稍安勿躁。几许中夹角余弦可用来权衡两个向量偏向的差别,呆板进修中借用这一观念来权衡样本向量之间的差别。

(1)在二维空间中向量A(x1,y1)与向量B(x2,y2)的夹角余弦公式:

呆板进修中的相似性怀抱!

(2) 两个n维样本点a(x11,x1n)和b(x21,x2n)的夹角余弦

?????? 相同的,对付两个n维样本点a(x11,x2n),可以行使相同于夹角余弦的观念来权衡它们间的相似水平。

呆板进修中的相似性怀抱!

  即:

呆板进修中的相似性怀抱!

?????? 夹角余弦取值范畴为[-1,1]。夹角余弦越大暗示两个向量的夹角越小,夹角余弦越小暗示两向量的夹角越大。当两个向量的偏向重适时夹角余弦取最大值1,当两个向量的偏向完全相反夹角余弦取最小值-1。

?????? 夹角余弦的详细应用可以参阅参考文献[1]。

(3)Matlab计较夹角余弦

例子:计较(1,0)、( 1,1.732)、( -1,0)两两间的夹角余弦

X = [1 0 ; 1 1.732 ; -1 0]

D = 1- pdist(X,'cosine')? % Matlab中的pdist(X,'cosine')获得的是1减夹角余弦的值

功效:

D =

??? 0.5000?? -1.0000?? -0.5000

?


8. 汉明间隔(Hamming distance)

(1)汉明间隔的界说

?????? 两个等长字符串s1与s2之间的汉明间隔界说为将个中一个变为其它一个所必要作的最小替代次数。譬喻字符串“1111”与“1001”之间的汉明间隔为2。

?????? 应用:信息编码(为了加强容错性,应使得编码间的最小汉明间隔尽也许大)。

(2)Matlab计较汉明间隔

  Matlab中2个向量之间的汉明间隔的界说为2个向量差异的分量所占的百分比。

?????? 例子:计较向量(0,2)两两间的汉明间隔

X = [0 0 ; 1 0 ; 0 2];

D = PDIST(X,'hamming')

功效:

D =

??? 0.5000??? 0.5000??? 1.0000

?


9. 杰卡德相似系数(Jaccard similarity coefficient)

(1) 杰卡德相似系数

?????? 两个荟萃A和B的交集元素在A,B的并齐集所占的比例,称为两个荟萃的杰卡德相似系数,用标记J(A,B)暗示。

呆板进修中的相似性怀抱!

  杰卡德相似系数是权衡两个荟萃的相似度一种指标。

(2) 杰卡德间隔

?????? 与杰卡德相似系数相反的观念是杰卡德间隔(Jaccard distance)。杰卡德间隔可用如下公式暗示:

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读