加入收藏 | 设为首页 | 会员中心 | 我要投稿 湖南网 (https://www.hunanwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

机器学习中的相似性度量!

发布时间:2021-01-13 09:50:26 所属栏目:大数据 来源:网络整理
导读:在做分类时经常必要估算差异样本之间的相似性怀抱(Similarity Measurement),这时凡是回收的要领就是计较样本间的“间隔”(Distance)。回收什么样的要领计较间隔是很考究,乃至相关到分类的正确与否。 本文的目标就是对常用的相似性怀抱作一个总结。 本文目

呆板进修中的相似性怀抱!

(4)Matlab 计较杰卡德间隔

Matlab的pdist函数界说的杰卡德间隔跟我这里的界说有一些不同,Matlab中将其界说为差异的维度的个数占“非全零维度”的比例。

例子:计较(1,1,-1,0)、(-1,0)两两之间的杰卡德间隔

X = [1 1 0; 1 -1 0; -1 1 0]

D = pdist( X,'jaccard')

功效

D =

0.5000??? 0.5000??? 1.0000

?


10. 相相关数 ( Correlation coefficient )与相干间隔(Correlation distance)

(1) 相相关数的界说

呆板进修中的相似性怀抱!

相相关数是权衡随机变量X与Y相干水平的一种要领,相相关数的取值范畴是[-1,1]。相相关数的绝对值越大,则表白X与Y相干度越高。当X与Y线性相干时,相相关数取值为1(正线性相干)或-1(负线性相干)。

(2)相干间隔的界说

呆板进修中的相似性怀抱!

?

(3)Matlab计较(1,2,3,4 )与( 3,8,7,6 )之间的相相关数与相干间隔

X = [1 2 3 4 ; 3 8 7 6]

C = corrcoef( X' ) ??%将返回相相关数矩阵

D = pdist( X,'correlation')

功效:

C =

??? 1.0000??? 0.4781

??? 0.4781??? 1.0000

D =

0.5219

????? 个中0.4781就是相相关数,0.5219是相干间隔。


11. 信息熵(Information Entropy)

?????? 信息熵并不属于一种相似性怀抱。那为什么放在这篇文章中啊?这个。。。我也不知道。 (╯▽╰)

信息熵是权衡漫衍的紊乱水平或分手水平的一种怀抱。漫衍越分手(可能说漫衍越均匀),信息熵就越大。漫衍越有序(可能说漫衍越齐集),信息熵就越小。

?????? 计较给定的样本集X的信息熵的公式:

呆板进修中的相似性怀抱!

参数的寄义:

n:样本集X的分类数

pi:X中第i类元素呈现的概率

?????? 信息熵越大表白样本集S分类越分手,信息熵越小则表白样本集X分类越齐集。。当S中n个分类呈现的概率一样大时(都是1/n),信息熵取最大值log2(n)。当X只有一个分类时,信息熵取最小值0


参考资料:?

[1]吴军. 数学之美 系列 12 - 余弦定理和消息的分类.

http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html

[2] Wikipedia. Jaccard index.

http://en.wikipedia.org/wiki/Jaccard_index

[3] Wikipedia. Hamming distance

http://en.wikipedia.org/wiki/Hamming_distance

[4] 求马氏间隔(Mahalanobis distance )matlab版

http://junjun0595.blog.163.com/blog/static/969561420100633351210/

[5] Pearson product-moment correlation coefficient

(编辑:湖南网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读