机器学习中的相似性度量!
(4)Matlab 计较杰卡德间隔 Matlab的pdist函数界说的杰卡德间隔跟我这里的界说有一些不同,Matlab中将其界说为差异的维度的个数占“非全零维度”的比例。 例子:计较(1,1,-1,0)、(-1,0)两两之间的杰卡德间隔 X = [1 1 0; 1 -1 0; -1 1 0] D = pdist( X,'jaccard') 功效 D = 0.5000??? 0.5000??? 1.0000 ? 10. 相相关数 ( Correlation coefficient )与相干间隔(Correlation distance) (1) 相相关数的界说 相相关数是权衡随机变量X与Y相干水平的一种要领,相相关数的取值范畴是[-1,1]。相相关数的绝对值越大,则表白X与Y相干度越高。当X与Y线性相干时,相相关数取值为1(正线性相干)或-1(负线性相干)。 (2)相干间隔的界说 ? (3)Matlab计较(1,2,3,4 )与( 3,8,7,6 )之间的相相关数与相干间隔 X = [1 2 3 4 ; 3 8 7 6] C = corrcoef( X' ) ??%将返回相相关数矩阵 D = pdist( X,'correlation') 功效: C = ??? 1.0000??? 0.4781 ??? 0.4781??? 1.0000 D = 0.5219 ????? 个中0.4781就是相相关数,0.5219是相干间隔。 11. 信息熵(Information Entropy) ?????? 信息熵并不属于一种相似性怀抱。那为什么放在这篇文章中啊?这个。。。我也不知道。 (╯▽╰) 信息熵是权衡漫衍的紊乱水平或分手水平的一种怀抱。漫衍越分手(可能说漫衍越均匀),信息熵就越大。漫衍越有序(可能说漫衍越齐集),信息熵就越小。 ?????? 计较给定的样本集X的信息熵的公式: 参数的寄义: n:样本集X的分类数 pi:X中第i类元素呈现的概率 ?????? 信息熵越大表白样本集S分类越分手,信息熵越小则表白样本集X分类越齐集。。当S中n个分类呈现的概率一样大时(都是1/n),信息熵取最大值log2(n)。当X只有一个分类时,信息熵取最小值0 参考资料:? [1]吴军. 数学之美 系列 12 - 余弦定理和消息的分类. http://www.google.com.hk/ggblog/googlechinablog/2006/07/12_4010.html [2] Wikipedia. Jaccard index. http://en.wikipedia.org/wiki/Jaccard_index [3] Wikipedia. Hamming distance http://en.wikipedia.org/wiki/Hamming_distance [4] 求马氏间隔(Mahalanobis distance )matlab版 http://junjun0595.blog.163.com/blog/static/969561420100633351210/ [5] Pearson product-moment correlation coefficient (编辑:湖南网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |