基于融合欧氏距离与Kendall Tau距离度量的谱聚类算法
Spectral clustering with mixed Euclidean and Kendall Tau metrics
摘要点击 231  全文点击 131  投稿时间:2016-08-12  修订日期:2017-09-06
查看全文  查看/发表评论  下载PDF阅读器
DOI编号  10.7641/CTA.2017.60606
  2017,34(6):783-789
中文关键词  Kendall Tau距离  距离度量  相似性融合  谱聚类
英文关键词  Kendall Tau distance  distance metric  similarity fusion  spectral clustering
基金项目  国家自然科学基金;省自然科学基金;其它
学科分类代码  
作者单位E-mail
光俊叶 南京航空航天大学计算机科学与技术学院 jyguang@nuaa.edu.cn 
邵伟 南京航空航天大学计算机科学与技术学院  
孙亮 南京航空航天大学计算机科学与技术学院  
张道强 南京航空航天大学计算机科学与技术学院 dqzhang@nuaa.edu.cn 
中文摘要
      大多数现存的谱聚类方法均使用传统距离度量计算样本之间的相似性, 这样仅仅考虑了两两样本之间的相似性而忽略了周围的近邻信息, 更没有顾及数据的全局性分布结构. 因此, 本文提出一种新的融合欧氏距离和 Kendall Tau距离的谱聚类方法. 该方法通过融合两两样本之间的直接距离以及其周围的近邻信息, 充分利用了不同的相似性度量可以从不同角度抓取数据之间结构信息的优势, 更加全面地反映数据的底层结构信息. 通过与传统聚类算法在UCI标准数据集上的实验结果作比较, 验证了本文的方法可以显著提高聚类效果.
英文摘要
      Spectral methods have been largely utilized in clustering problems. Most of existing methods ignore the useful information from neighborhoods and only employ conventional metric to evaluate the similarity between pairs of samples. Accordingly, this paper proposes a novel spectral clustering method with mixed Euclidean and Kendall Tau metrics (SCMEK), by which similarities between pairs of samples and their neighbors are both considered for learning the underlying structure of the datasets. Specifically, the new similarity metric is a fusion algorithm, which outputs enhanced metric by combining multiple metrics (i.e., Euclidean metric and Kendall Tau metric). Moreover, the proposed method utilizes the non-linear fusion of different similarity metrics to tackle the dataset from different aspects and thus can effectively utilize different information from the data structure. Experimental study on various datasets demonstrates that the proposed approach achieves superior performance to state-of-the-art methods.