摘要
为了能够更好地对非独立同分布的多尺度分类型数据集进行研究,基于无监督耦合度量相似性方法,提出针对非独立同分布的分类属性型数据集的多尺度聚类挖掘算法。首先,对基准尺度数据集进行基于耦合度量的基准尺度聚类;其次,提出基于单链的尺度上推和基于Lanczos核的尺度下推尺度转换算法;最后,利用公用数据集以及H省真实数据集进行实验验证。将耦合度量相似性(Couple metric similarity, CMS)、逆发生频率(Inverse occurrence frequency, IOF)、汉明距离(Hamming distance, HM)等方法与谱聚类结合作为对比算法,结果表明,尺度上推算法与对比算法相比,NMI值平均提高13.1%,MSE值平均减小0.827,F⁃score值平均提高12.8%;尺度下推算法NMI值平均提高19.2%,MSE值平均减小0.028,F⁃score值平均提高15.5%。实验结果表明,所提出的算法具有有效性和可行性。
多尺度聚类是多尺度研究方法的一种,旨在根据不同的分辨率,从不同的尺度将一堆无标签的物理或抽象对象分成由相似对象组成的簇,在数据挖掘、机器学
从目前的研究情况来看,多尺度聚类已经在各个学科领域得到广泛研究;但从数据集的属性类型进行分析,大多数的研究只是针对数值型数据集,对数据进行定量的分析与预测,而对分类属性型数据集(简称为分类型数据集)进行定性分析研究的工作很少。分类型数据集大多用字符表示属性值,不具有数的大部分性质,即便使用数(整数)表示,也应当作符号,不能进行定量分析。对分类型数据集进行研究,不仅需要获取复杂的数据特征,还需要所提出的方法具有一定的灵活性。
针对存在的问题,本文的主要贡献有:(1)引入最新提出的无监督耦合度量相似性方法,提出基于耦合度量的多尺度聚类挖掘方法,对具有多尺度特性的分类型数据集进行基准尺度聚类,得到基准尺度聚类结果;(2)结合尺度转换理论以及凝聚层次聚类思想,提出基于单链的尺度上推算法,对基准尺度的聚类结果进行尺度转换,进而得到目标尺度聚类结果;(3)将尺度转换理论与兰索斯(Lanczos)插值思想相结合,并根据分裂层次聚类思想,提出基于Lanczos核的尺度下推算法,对非独立同分布的分类型数据集进行多尺度聚类尺度下推。
耦合度量相似性(Couple metric similarity,CMS)是一种主要用于非独立同分布的无监督分类型数据集的相似性度量方
CMS在测量对象相似度之前,将基于频率的属性内相似度与基于共生的的属性间相似度结合起来。属性内相似性捕获属性值的频率分布和值之间的耦合,属性间相似度通过考虑不同属性属性值共现条件概率的交集来聚合不同属性值之间的属性依赖关系。CMS主要从属性内相似性、属性间相似性和耦合对象相似性来衡量两个对象之间的相似性。
定义1 属性内相似性 两个对象和关于属性的属性内相似性定义为,计算公式为
(1) |
式中:;;表示对象在第个属性上所对应的属性值;表示对象在第个属性上所对应的属性值;表示所有在第个属性取值为的对象的集合,其中是为了避免分母取值为0;表示集合中元素的个数。如果属性值相同,则它们之间的属性内相似性为1;当属性值不一致时,它们的出现频率即表示它们的属性内相似性。
定义2 属性间相似性 在第个属性中,两个属性值和关于除了属性j外其他属性的属性间相似性定义为
(2) |
式中:表示数据集属性的个数;表示每个属性到属性的权重;表示属性中两个属性值和的属性间相似性;表示属性值和关于属性的属性间相似性,计算公式为
(3) |
式中:;表示在第个属性上取值为的所有对象在第个属性上取值的集合与在第个属性上取值为的所有对象在属性上所有可能取值的共现条件概率的交集。
定义3 耦合度量相似性 两个对象和之间的耦合度量相似性(CMS)定义为
(4) |
式中:表示属性的耦合度量属性值相似性的权重;表示耦合度量属性值的相似性,即将属性值属性内的相似性与属性值属性间的相似性结合,其计算公式为
(5) |
式中:表示属性值属性内的相似性和属性值属性间的相似性的加权调和平均。越大,表明属性间耦合在对象相似性中起的作用越重要,即属性与其他属性属性间的耦合比属性属性内耦合更重要。
基于无监督耦合度量相似性的多尺度聚类算法,可以针对多尺度数据集中的分类型数据集进行多尺度数据挖掘,不仅能够考虑属性内之间的相互影响,还可以考虑到属性间的影响,这是耦合度量相似性的精髓所在,也是多尺度聚类数据挖掘在尺度转换时提高目标尺度聚类性能的关键。
多尺度聚类数据挖掘是多尺度数据挖掘算法中的一种,主要针对无标签多尺度数据集进行数据挖掘,基于耦合度量的多尺度聚类数据挖掘算法则是多尺度聚类数据挖掘的一种,主要针对非独立同分布的分类型数据集进行数据挖掘,其包含基准尺度聚类、基于单链的尺度上推和基于Lanczos核的尺度下推。
本文基于耦合度量相似性方法,提出了多尺度数据挖掘基准尺度聚类算法(Local scale clustering algorithm,LSCA),其基本思想是:首先根据概率密度离散化方法,利用概率密度来对表征尺度的属性进行多尺度划分,其次根据每层尺度信息熵的衰减来确定最优尺
算法1 基准尺度聚类算法LSCA
输入:具有多尺度特性的原始分类型数据集Dataset
输出:最优基准尺度聚类结果
步骤:
LableEncoder dataset;/*对数据集进行编码,如:原始数据集中用female代表女性,经过编码后用数值0代表女性,将数据集数值化*/
Choose the basic scale of dataset :
(3) /*选择合适的基准尺度*/
(4) /*计算每块数据集中样本间的属性值属性内相似性*/
Use Eq.(1) to calculate
Get Wfunc(data,k,instance1List,instance2List)
/* Wfunc函数为属性值共现条件概率的交集*/
Use Eq.(2) to calculate coupled metric attribute value similarity
D = getD(W)
Ln = D-W
Dn = np.power(np.linalg.matrix_power(D,-1),0.5)
L=np.dot(np.dot(Dn,Ln),Dn)
eigval, eigvec = getEigVec(L,cluster_num)/*获得特征值及特征向量*/
多尺度聚类数据挖掘中,目标尺度结果主要由基准尺度的聚类结果经过尺度转换得到,因此基准尺度在尺度转换得到目标尺度结果中具有重要作用。
多尺度数据集等价划分均具有传递性、自反性和对称
多尺度划分数据集后,数据集得到泛化,容易丢失一部分细节信息,数据集的混乱程度也变大,对基准尺度的选择成为多尺度数据挖掘的重要步骤。文献[
基准尺度的选择对于多尺度聚类数据挖掘来说非常重要,同样,基准尺度的聚类结果也很重要,聚类结果的好坏,将对尺度转换结果有很大的影响。因此,基准尺度的聚类结果应尽可能地保留数据的原始特性,如数据的信息量、异质性以及耦合性。
①信息量
所谓信息量是一种衡量数据携带信息多少的量度。数据的信息量应该以一种概率函数的形式表示,通常用信息熵表示,即,其中表示对象出现的概率,。
②异质性
异质性就是一个群体里面,所有个体的特征差异程度。异质性越高,个体的特征分布越分散。一般大尺度下异质性会相对较低。
③耦合性
耦合性是程序结构中各个模块之间相互关系的度量。本文指的是属性内和属性间的相互关系,随着尺度的改变,属性间的相关性也会随之改变。
CMS相似性度量方法将属性内和属性间的相似性相结合,且该方法是基于度量的,满足度量空间的性质。度量空间在数学领域指的是一个集合,且集合中的各个元素之间的距离是可定义的,度量空间也称作距离空间,满足如下条件:
(a) 正定性:
(b) 对称性:
(c) 三角不等式:
度量空间有很多良好的性质,因此CMS具有作为度量的有效性。
谱聚类算法以谱图理论为基础,能够聚类任意分布的数据集,并且收敛于全局最优解,本质是将数据的聚类问题转换为图的最优划分问题,在数据聚类方面有很好的应用价值。该算法首先根据给定数据集生成一个描述样本间相似度的邻接矩阵,然后求出度矩阵,并根据邻接矩阵和度矩阵得出拉普拉斯矩阵,最后根据拉普拉斯矩阵得到特征值和特征向量,并构造分类器,根据特征向量完成对数据集的聚类。其中拉普拉斯矩阵具有对称性,它的所有特征值都是实数,且都大于等于0。
文献[
尺度转换是多尺度聚类数据挖掘的关键,是多尺度领域研究的重中之重,尺度上推算法是尺度转换的一种。本文借助凝聚层次聚类的思想,提出了多尺度数据挖掘尺度上推算法(Upscaling algorithm CMS, UACMS )。该算法的基本思想是:将每一个基准尺度聚类中心作为一个初始簇,根据相似性度量方法,将最相似的两个簇合并在一起,直到达到设定的簇的数目。具体实现步骤如下:
算法2 多尺度聚类尺度上推算法UACMS
输入:基准尺度聚类结果
输出:目标尺度聚类结果
步骤:
Merge the two most similar clusters
new_node=ClusterNode(vec,lef,right,distance)
尺度上推思想类似于层次聚类中的凝聚层次聚类。凝聚层次聚类是一种自底向上的方法,简单地说,其算法就是通过计算每个簇之间的相似性,并将相似性最高的两个簇进行合并,生成聚类树的过程。凝聚层次聚类各个簇之间相互合并的依据分为3种:单链(Single linkage)、全链(Complete linkage)和平均链(Average linkage)。
①单链
也称作最近邻(Nearest⁃neighbor),就是取两个簇当中相似性最大的两个样本的相似性作为这两个簇的相似性。这种合并方法容易造成一种链式(Chaining)效果,两个簇从整体来看离得相对较远,但是由于其中部分样本离得较近而合并,从而导致得到的合并簇较松散,进一步扩大了链式效应。所谓的链式效应,即前边产生的结果会对后边的结果产生一系列的影响。
②全链
全链就是将两个簇中相似性最小的两个样本间的相似性作为两个簇的相似性,效果刚好与单链相反,限制很大。
③平均链
平均链就是将两个簇中两两样本间的相似性求平均值作为两个簇之间的相似性。这种方法受异常点的影响相对较大,而且时间复杂度也比较高.
UACMS就是借助凝聚层次聚类思想中单链求两个簇之间相似性的方法,对基准尺度聚类结果进行簇合并,进而达到尺度上推的目的,其思想可用

图1 尺度上推思想
Fig.1 Idea of upscaling
尺度下推是尺度转换的另一种表现形式。本文借助Lanczos插值和分裂层次聚类的思想提出了多尺度聚类尺度下推算法(Downscaling based on Lanczos,DSAL)。该算法的思想是:首先得到基准尺度聚类结果,其次将基准尺度聚类结果作为已知样本,利用Lanczos核公式计算每个样本的权重,得到新的聚类中心,最后计算样本间的相似性,得到目标尺度聚类结果。尺度下推的核心相当于从宏观到微观,从展现整体的特征到显示个体特征的过程,这个过程中可以得到更多的细节信息。该过程类似于分裂层次聚类,即将一个簇不断地拆分为更多的簇。DSAL的思想如

图2 尺度下推思想
Fig.2 Idea of downscaling
算法3 多尺度聚类尺度下推算法DSAL
输入:具有多尺度特性的原始分类型数据集Dataset
输出:目标尺度聚类
步骤:
for i in range(n):
for j in range(i+1,n):
GetSimCMS(
Convert scale:Conversion(DatasetCon)
在层次聚类中,凝聚层次聚类与分裂层次聚类的原理相反。分裂层次聚类采用自上而下的策略,首先将所有样本都视为属于同一个簇,然后根据它们之间的相似性逐渐进行划分,得到越来越多更小的簇,直到满足终止条件。尺度下推算法的思想与分裂层次聚类类似,但又有所不同:它是将基准尺度数据集的聚类结果作为初始数据集,然后对其进行分裂,直到满足目标尺度的终止条件。
由于多尺度领域非常注重算法效率,因此需要严格把控尺度转换所需要的时间,这也是在尺度转换过程中用基准尺度的聚类结果得到目标尺度聚类结果的一个重要原因。本文提出的尺度下推算法DSAL利用的就是对基准尺度聚类结果进行插值操作,得到每个样本的权重,然后产生新的样本点。对于一维数据集,假设输入的点为x,则Lanczos对应位置的权重计算公式为
(6) |
通常取值为2或3,当时适用于缩小插值;时,适用于放大插值。通常根据输入样本的取值,就可以确定样本所对应的权重,同理也可以得到其他样本的权重,然后对所有需要用到的样本的取值加权平均,就可以得到想要的插值结果,即
(7) |
根据已有样本点之间的关系及其取值,可以得到新样本点的取值,进而可以得到目标尺度聚类结果。
本文使用H省全员人口数据集(简称renkou)、UCI和Kaggle公用数据集(Zoo, Soybeanlarge, Dermatology, BreastCancer, Titanic)验证算法的有效性和可行性。
实验环境为Windows版本和Windows 10专业工作站版;处理器为Intel(R) Core(TM)i7⁃3770 CPU @ 3.40 GHz 3.40 GHz;已安装的内存(RAM)8.00 GB;系统类型为64位操作系统、基于x64的处理器。
算法采用python语言具体实现,实验设计思路如下:首先利用谱聚类与CMS,H
使用MSE,归一化互信息(Normalized mutual information,NMI),F⁃score以及运行时间4个指标对文献[
尺度上推算法即UACMS算法,通过基准尺度聚类中心得到目标尺度聚类中心,从而可以得到目标尺度聚类结果。聚类结果表明,尺度上推UACMS算法在6个数据集中有4个在NMI上优于CMS,HM,OF,IOF,Eskin和K⁃modes方法。
不同算法的NMI值比较结果如
不同算法MSE值的比较结果如
不同算法F⁃score值的比较结果如
运行时间是评价算法好坏的重要指标。不同算法运行时间的比较结果如
综上,通过对比实验证明了尺度上推算法UACMS的有效性和可行性。UACMS算法相对于其他算法而言,在NMI,MSE,F⁃score以及运行时间方面均得到很大改善,聚类质量显著提高。
DSAL算法以及其他对比算法在不同数据集上的NMI值比较结果如
不同算法MSE值的比较结果如
不同算法F⁃score值的比较结果如
运行时间是评价算法好坏的重要指标。不同算法运行时间的比较结果如
综上,通过对比实验证明了尺度下推算法DSAL的有效性和可行性。DSAL算法相较其他算法而言,在NMI,MSE,F⁃score以及运行时间方面均得到很大改善,聚类质量得到显著提高。
现有的多尺度聚类算法主要是针对于数值属性型数据集进行定量的分析,对分类属性型数据集的研究相对较少,尽管有K⁃modes算法针对分类型数据集进行聚类,K⁃prototype算法可以对数值属性和分类属性混合的数据集进行聚类,但二者都没有考虑不同属性间的相互影响。而耦合度量相似性是一种基于度量的相似性度量方法,并且考虑到了属性间和属性内的关系对样本间相似性的影响。因此,本文提出基于耦合度量相似性的多尺度聚类算法,针对非独立同分布的分类型多尺度数据集进行多尺度数据挖掘,并提出了基于基准尺度聚类结果进行尺度转换的尺度转换方法:基于单链的尺度上推算法UACMS以及基于Lanczos核的尺度下推算法,并且实验结果证明了所提算法的有效性和可行性。
本文中的对比算法CMS,HM,OF,IOF以及Eskin相似性度量方法都是根据参考文献[
参 考 文 献
ALABDULMOHSIN I, CISSE M, GAO X, et al. Large margin classification with indefinite similarities[J]. Machine Learning, 2016, 103(2): 215-237. [百度学术]
GAO H, LIU X, PENG Y, et al. Sample-based extreme learning machine with missing data[J]. Mathematical Problems in Engineering, 2015(6): 1-11. [百度学术]
柳萌萌,赵书良,韩玉辉,等.多尺度数据挖掘方法[J].软件学报,2016,27(12):3030-3050. [百度学术]
LIU Mengmeng , ZHAO Shuliang, HAN Yuhui, et al. Research on multi-scale data mining method[J]. Journal of Software, 2016,27(12):3030-3050. [百度学术]
SINGH V, ZONG B, SINGH A K, et al. Nearest keyword set search in multi-dimensional datasets[J]. IEEE Transactions on Knowledge and Data Engineering, 2016, 28(3): 741-755. [百度学术]
赵骏鹏, 赵书良, 李超, 等. 基于粒计算的多尺度聚类尺度上推算法[J].计算机应用研究,2018,35(2):362-366. [百度学术]
ZHAO Junpeng, ZHAO Shuliang, LI Chao, et al. A multi-scale clustering algorithm based on grain calculation [J].Application Research of Computers,2018,35(2):362-366. [百度学术]
李春忠, 靖稳峰, 徐健. 基于多尺度信息融合的层次聚类算法[J].工程数学学报,2019,36(3):245-255. [百度学术]
LI Chunzhong, JING Wenfeng, XU Jian. Hierarchical clustering based on multi-scale information fusion [J]. Chinese Journal of Engineering Mathematics,2019,36(3): 245-255. [百度学术]
李军军, 曹建农, 程贝贝, 等. 联合像素与多尺度对象的高空间分辨率遥感影像谱聚类分割[J/OL].吉林大学学报(工学版):1-9[2019-06-19]. https://doi.org/10.13229/j.cnki.jdxbgxb20180537. [百度学术]
LI Junjun, CAO Jiannong, CHENG Beibei,et al. High spatial resolution remote sensing imagery segmentation based on combination of pixels and multi-scale objects using spectral clustering[J/OL]. Journal of JiLin university (Engineering): 1-9[2019-06-19]. [百度学术]
RIPOCHE M, LINDSAY L R, LUDWIG A, et al. Multi-scale clustering of lyme disease risk at the expanding leading edge of the range of ixodes scapularis in Canada[J]. International Journal of Environmental Research and Public Health, 2018, 15(4): 603. [百度学术]
ZUN L C, NORISZURA I, WENDY L S, et al. The efficiency of average linkage hierarchical clustering algorithm associated multi-scale bootstrap resampling in identifying homogeneous precipitation catchments[J].IOP Conference Series: Materials Science and Engineering,2018,342(1): 012070. [百度学术]
PANIGRAHI L, VERMA K, SINGH B K, et al. Ultrasound image segmentation using a novel multi-scale Gaussian kernel fuzzy clustering and multi-scale vector field convolution[J]. Expert Systems With Applications, 2019, 115: 486-498. [百度学术]
SHI Y, LI W, GAO Y, et al. Beyond IID: Learning to combine Non-IID metrics for vision tasks[C]//Proceedings of National Conference on Artificial Intelligence. San Francisco, California, USA: AAAI, 2017: 1524-1531. [百度学术]
JIAN S, CAO L, LU K, et al. Unsupervised coupled metric similarity for non-IID categorical data[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(9): 1810-1823. [百度学术]
BORIAH S, CHANDOLA V, KUMAR V, et al. Similarity measures for categorical data: A comparative evaluation[C]//Proceedings of Siam International Conference on Data Mining. Philadelphia, PA :SIAM, 2008: 243-254. [百度学术]
JIAN S, PANG G, CAO L, et al. CURE: Flexible categorical data representation by hierarchical coupling learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(5): 853-866. [百度学术]
ZHANG Q, SHI C, NIU Z, et al. HCBC: A hierarchical case-based classifier integrated with conceptual clustering[J]. IEEE Transactions on Knowledge & Data Engineering, 2019, 31(1): 152-165. [百度学术]
张昉,赵书良,武永亮.面向多尺度数据挖掘的数据尺度划分方法[J].计算机科学,2019,46(4): 57-65. [百度学术]
ZHANG Fang, ZHAO Shuliang, WU Yongliang. Data scaling method for multi-scale data mining[J]. Computer Science, 2019, 46(4): 57-65. [百度学术]
LANGARI B, VASEGHI S, PROCHAZKA A, et al. Edge-guided image gap interpolation using multi-scale transformation[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2016, 25(9): 4394-4405. [百度学术]
BIBA M, ESPOSITO F, FERILLI S, et al. Unsupervised discretization using kernel density estimation[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence. Hyderabad, India: [s.n.], 2007: 696-701. [百度学术]
DIDAY E, BOCK H H. Analysis of symbolic data: Exploratory methods for extracting statistical information from complex data[J]. Journal of Classification, 2000, 18(2): 291-294. [百度学术]