利益:
- 随机(同一)标签分派 对付任何值的ARI分数靠近0.0n_clusters,n_samples(对付原始的兰德指数或V怀抱,环境不是这样)。
- 有界范畴[-1,1]:负值是坏的(独立标注),相似的聚类具有正的ARI,1.0是美满的匹配得分。
- 对集群布局没有作出任何假设:可以用于较量聚类算法,譬喻k-means,其假设各向同性黑点外形与可以找到具有“折叠”外形的聚类的频谱聚类算法的功效。
弱点:
- 与惯性相反,ARI必要对地面实情类的常识,而在实践中险些不行用,可能必要人工注释者的人工分派(如在受监视的进修情形中)。
- 然而,ARI也可以在纯无人监控的配置顶用作可用于聚类模子选择(TODO)的共鸣索引的构建块。
4)Mutual Information based scores(基于彼此信息的分数)
鉴于labels_true沟通样本的根基真实类分派和我们的聚类算法分派的常识labels_pred, 互信息是权衡两个分派的同等性的函数,忽略分列。这种法子的两个差异的尺度化版本是可用的,归一化互信息(NMI)和调解的彼此信息(AMI)。文献中常常行使NMI,而最近提出了AMI,并针对机遇举办归一化:
利益:
- 随机的(匀称的)标签指定具有AMI得分靠近0.0 为任何值n_clusters和n_samples(其不是生互信息或V-法子规如的环境下)。
- 有界范畴[0,1]:靠近零的值暗示两个首要独立的标签分派,而靠近1的值暗示重要的同等性。另外,刚好为0的值暗示纯独立的标签分派,而且刚好为1的AMI暗示两个标签分派是相称的(有或没有分列)。
- 对集群布局没有作出任何假设:可以用于较量聚类算法,譬喻k-means,其假设各向同性黑点外形与可以找到具有“折叠”外形的聚类的频谱聚类算法的功效。
弱点:
- 与惯性相反,基于MI的法子必要相识地面实情类,而在实践中险些不行用,或必要工钱注释者的人工分派(如在受监视的进修情形中)。 然而,基于MI的法子也可用于纯粹无监视的配置,作为可用于聚类模子选择的共鸣索引的构建块。
常见聚类算法比拟
下面一张图先容几种Scikit learn的常用聚类算法的较量:

常见聚类算法的Python实现
上面说了这么多聚类算法,照旧在最后头,把算法的Python实当代码给各人贴一下:
1)K-Means聚类

2)分层聚类(Hierarchical clustering)

3)t-SNE聚类

4)DBSCAN聚类

5)MiniBatchKMeans

6)Affinity Propagation(近邻撒播)

Reference
《百面呆板进修》——chapter5
(编辑:湖南网)
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!
|