控制与决策  2020, Vol. 35 Issue (9): 2081-2093  
0

引用本文 [复制中英文]

顾苏杭, 王士同. 增量学习的模糊风格K平面聚类[J]. 控制与决策, 2020, 35(9): 2081-2093.
[复制中文]
GU Su-hang, WANG Shi-tong. Incremental learning based fuzzy style K-plane clustering[J]. Control and Decision, 2020, 35(9): 2081-2093. DOI: 10.13195/j.kzyjc.2019.0023.
[复制英文]

基金项目

国家自然科学基金项目(61572236, 61300151);常州工业职业技术学院博士基金项目(BSJJ13101010);常州工业职业技术学院新一代信息技术团队项目(YB201813101005)

作者简介

顾苏杭(1989-), 男, 博士生, 从事人工智能与模式识别、机器学习的研究, E-mail: gusuhang09@163.com;
王士同(1964-), 男, 教授, 博士生导师, 从事人工智能与模式识别、机器学习、深度学习等研究, E-mail: wxwangst@yahoo.com.cn

通讯作者

顾苏杭,E-mail: gusuhang09@163.com

文章历史

收稿日期:2019-01-04
修回日期:2019-03-21
增量学习的模糊风格K平面聚类
顾苏杭 1,2, 王士同 1     
1. 江南大学 数字媒体学院,江苏 无锡 214122;
2. 常州轻工职业技术学院 信息工程与技术学院,江苏 常州 213164
摘要:提出利用特征增量学习和数据风格信息双知识表达约束的模糊K平面聚类(ISF-KPC)算法.为了获得更好的泛化性, 聚类前利用高斯核函数对原输入特征进行增长式的特征扩维.考虑数据集中来源于同一聚类的样本具有相同的风格, 以矩阵的形式表达数据风格信息, 并采用迭代的方式确定每个聚类的风格矩阵.大量实验结果表明, 双知识表达约束的ISF-KPC与对比算法相比能够取得竞争性的聚类性能, 尤其在具有典型风格数据集上能够取得优异的聚类性能.
关键词K平面聚类    风格信息    特征扩维    模糊聚类    
Incremental learning based fuzzy style K-plane clustering
GU Su-hang 1,2, WANG Shi-tong 1     
1. School of Digital Media, Jiangnan University, Wuxi 214122, China;
2. School of Information Engineering and Technology, Changzhou Institute of Industry Technology, Changzhou 213164, China
Abstract: A fuzzy K-plane clustering algorithm based on double knowledge representations about incremental feature learning and homogeneous style of data (ISF-KPC) is proposed. Before partitioning data samples into different groups, i.e., clusters, the feature augumentation is firstly conducted in an incremental manner based on the original inputs. Since data samples originating from a group share a same homogeneous style, the style information of each group, denoted by a style matrix, will be iteratively determined. By extensive experiments, the proposed ISF-KPC based on the double knowledge representations can obtain comparative clustering performance when compared to the adopted comparative clustering methods, especially it has its best clustering performance on the datasets with clearly homogeneous styles.
Keywords: K-plane clustering    style information    feature augumentation    fuzzy clustering    
0 引言

在许多实际应用中, 来源于同一组或同一源的数据往往潜在或明显地表现出独特的数据风格[1-4].典型的应用包括癫痫脑电信号识别[5-6](采集于健康人群的脑电信号所表现出来的波形特征明显不同于患有癫痫的人群)、手写体识别[1, 4, 7-8](不同的作者写出来的字体风格完全不一样)、元音识别[1, 8](英文中的元音发音互不相同).这些数据所表现的风格信息完全有别于数据的物理特征, 如距离、颜色和相似性.另外, 按照人的识别思维, 人们习惯将具有相同风格的事物进行归类, 因此考虑数据风格信息的识别模型符合数据的实际情况.

聚类是一种无监督数据分析, 在未给出样本标签信息的情况下可将样本划分到不同的类别中.聚类分析已广泛应用于识别、图像处理、计算机视觉以及文本分析[9-10].基于K平面的聚类算法以其新颖的聚类方式已获得越来越多科研人员关注[11-14], 其主要思想是通过生成K个平面以代替基于中心点聚类算法中[15-17]K个聚类中心点.基于K平面的聚类算法与基于中心点的聚类算法相比, 中心点浓缩了数据风格信息, 平面更利于挖掘并表达数据风格信息.另外, 将数据风格信息用于数据分类并改进分类行为已取得相关研究进展[1-4]. Huang等[1]认为同一类数据拥有独特的数据风格, 不同类数据之间的风格相互区别, 并以矩阵的形式计算每一类数据的风格信息用于改善分类模型的性能; Jiang等[2]提出的风格集中自动解码器能够提取鲁棒的图像风格特征代表, 从而有效提高时尚、建筑以及漫画等图像的分类性能; Veeramachaneni等[3-4]提出一种风格约束的文本分类方法, 通过可供选择的风格假设赋予文本中每个类(即每个风格)不同高斯密度, 用以区别文本中不同类的风格特征.该方法在文本数据集上的分类效果明显优于基于语义、词典(单一的数据物理特征)的文本分类方法.然而, 现有针对数据风格的研究成果主要集中于有监督学习算法, 对将数据风格信息用于聚类分析并提高聚类性能的关注很少.因此, 针对以上所述内容, 所提出算法主要集中于聚类分析且以K平面聚类算法为基础.

在聚类分析中, 由于样本标签信息未知, 与有监督数据分析分类算法相比, 聚类算法获得相对较少的数据特征信息.为了弥补可利用数据信息的不平衡, 在聚类算法中对数据进行双知识表达, 即对原输入特征增量式扩维进行增量学习并挖掘扩维后的数据风格信息.双知识表达约束下的ISF-KPC分割数据样本时使得具有同一风格的样本成为一类.本文主要贡献在于: 1)双知识表达中的增量学习体现了高斯型支持向量机(support vector machine, SVM)中特征向高维映射的思想; 2)双知识表达中的数据风格信息有别于数据物理特征; 3)大量实验结果表明双知识表达能够很好地约束聚类行为, 与所选对比算法相比, ISF-KPC至少能够取得竞争性的聚类性能, 尤其在具有典型风格数据集上能够取得最好的聚类结果.

1 ISF-KPC 1.1 K平面聚类算法

由于ISF-KPC算法以K平面聚类算法为基础, 本文首先简单介绍K平面聚类算法[11].考虑一个数据集X包含N个样本, 即X=[x1, x2, xN]且有xiRd.根据X, 平面聚类算法(K-plane clustering, KPC)首先生成K个平面, 然后将每个样本划分到距离最近的平面中, 即

(1)

其中: Xj为与第j个聚类相对应的数据子集; e为具有合适维度的列向量, 其元素均为1; ωjbj为聚类平面参数, 可通过迭代收敛的方式求解所有聚类平面参数.

典型的K平面聚类为硬聚类算法, 即一个样本只能属于一个K平面, 而在ISF-KPC中引入模糊隶属度约束, 即一个样本可被分割到多个聚类平面, 因此式(1)可变为

(2)
1.2 动机-双知识表达

ISF-KPC的聚类行为由双知识表达所约束, 即增量学习和挖掘数据风格信息.增量学习保证了ISF-KPC的泛化性, 数据风格信息能够提高ISF-KPC的实际聚类精确度.以下分别介绍这两个有关数据的知识表达.

与高斯型SVM相似, ISF-KPC通过增量学习将样本特征进行增长式扩维, 在更高维空间中生成K个聚类平面并完成聚类分析.首先, 将原输入样本xi一一进行投射生成增强特征zi1, 投射函数选择高斯函数, 进而将所有增强特征组成增强节点E1, 如图 1所示.将生成的增强节点嵌入到原特征空间中, 此时原输入样本X变为新输入样本X1=[X, E1].将新生成的输入样本同样利用高斯函数进行一一投射, 并将生成的增强节点再次嵌入到原输入特征空间中, 经过一系列特征扩维操作直至ISF-KPC取得最好聚类性能, 此时原输入样本X变为新输入样本Xs=[X, Es]. 图 1形象地解释了增量学习的过程, 其中增强节点Es与原输入特征共同影响ISF-KPC的聚类性能.大量实验结果表明, 在特征增量学习过程中, s的取值范围为1~3, 即特征扩维操作只需执行1~3次的情况下ISF-KPC能够取得最佳聚类性能.与高斯型SVM将特征通过核化映射到无穷维相比, 本文增量学习过程简单且易于执行, 无需求解无穷维特征空间中的超平面参数.

图 1 增量学习

数据集中的每一类数据除了物理特征(如距离、颜色或相似性)外, 还潜在或明显地拥有相应的风格, 挖掘并利用数据风格信息可有效提高决策模型的性能[1-4].如图 2为基于数据物理特征的决策模型(简称为模型1)与基于数据风格信息的决策模型(简称为模型2)之间的区别.其中, 图 2左边部分展现了包含若干字母的数据集, 这些字母可组成不同的字体风格.依据数据的相似性物理特征建立的模型1将具有相似外观的字母归为一类, 如图 2中间部分所示.如果在建立决策模型的过程中考虑数据风格信息, 模型2则将具有相同风格的字母归为一类, 如图 2右边部分所示.模型2与模型1得到截然不同的归类结果, 且模型2的归类结果一方面符合数据集中每一类数据具有各自的风格, 另一方面也符合人们的认知习惯. ISF-KPC致力于挖掘并利用数据集中每一类数据风格信息改善其分类行为.

图 2 两种决策模型之间的区别
1.3 ISF-KPC目标函数及其优化

通过第2.2节动机描述可得双知识表达约束下的ISF-KPC目标函数为

(3)

其中: xis为在原输入基础上连续执行增量学习后生成的新的输入; μij为第i个样本归属第j个聚类的模糊隶属度, 且有, μij>0, ∀ i; AjRd × d为与数据集中第j个聚类相对应的风格矩阵, 通过风格矩阵Aj迭代地挖掘每个聚类的数据风格信息; λ为风格调节参数, 用于惩罚过度的数据风格信息, 可人为确定或通过网格搜索结合交叉验证的方法确定其值, 第2.1节会给出根据具体数据集确定其值的指导方法, 另外, 当λ→ ∈∞时, 数据风格信息不再约束ISF-KPC聚类行为, 当λ值设置过小时, ISF-KPC会过度地使用数据风格信息; I为具有合适维度的单位矩阵.大量的实验结果表明, 当数据集中每一类数据具有典型数据风格时, 风格矩阵Aj中的元素值趋向于某一相对较大值, 反之, 风格矩阵Aj中的元素值(除对角线元素)趋向于0.

与KPC算法相比, ISF-KPC具有以下显著区别: 1) ISF-KPC的目标函数中嵌入双知识表达, 如式(3)所示, ISF-KPC的聚类行为受双知识表达约束, 尤其数据风格信息Aj能够有效地保证ISF-KPC的聚类精确度; 2) ISF-KPC目标函数带有正则项|Aj-I|F2 (||·||F2为Frobenius范数), 其作用于约束数据风格信息, 由于该正则项基于数据风格信息, 显著区别于SVM目标函数中正则项(能够很好地优化SVM模型性能).

1.4 ISF-KPC参数优化

通过ISF-KPC目标函数(式(3))可知, 所提出聚类算法ISF-KPC共涉及5个参数, 即样本模糊隶属度μij、聚类平面参数ωjbj、风格调节参数λ、风格矩阵Aj.其中: λ在第2.1节给出确定其值的指导方法, μijωjbjAj四个参数通过以下两个独立程序迭代地确定其值.

1) 模糊K平面参数学习.

固定所有风格矩阵{Aj}(j=1, 2, k)以及模糊隶属度矩阵, 目标函数变为

(4)

初始化{Aj}使得任意Aj为单位矩阵, U可通过随机赋值或fuzzy C means (FCM)算法[16]进行初始化, 且有, μij=1, μij>0, ∀ i.与式(1)相比, 此时目标函数优化问题已转换成求解标准KPC中K个聚类平面参数问题[11].因此可通过求解特征值问题实现K平面参数学习.考虑拉格朗日函数将式(4)转换为

(5)

将式(5)分别对ωjbj的偏导求解, 有

(6)

进而得到

(7)
(8)

其中

(9)
(10)

e为具有合适维度的列向量, 其元素均为1; Λ为对角矩阵, 其对角元素分别为μ1jm, μ2jm, μNjm.根据文献[11]求解KPC中K个聚类平面参数{ωj}与{bj}的方法, 式(7)中ξjDj的最小特征值, 且ωj为与最小特征值ξj相对应的特征向量, ISF-KPC中K个聚类平面参数ωj}即可求出, 此时bj

(11)

至此, 固定{Aj}和U, 可求出K个聚类平面参数{ωj}、{ bj}.此时, 在{Aj}、ωj}、{ bj}都已知的情况下关于目标函数(如式(3)所示)的优化问题可转变为

(12)

同样考虑拉格朗日函数, 式(12)变为

(13)

求解样本模糊隶属度可参照FCM算法[16], 计算公式如下:

(14)

2) 数据风格信息学习.当单独的模糊K平面参数学习程序结束后, 即参数{ωj }、{ bj}、U已知, 此时目标函数的优化问题转变为

(15)

由式(15)可知, JISF-KPC'''k个独立的风格矩阵相关.考虑拉格朗日函数, 式(15)变为

(16)

很明显, 式(16)是一个凸函数问题, 通过求偏导的方法, 有

(17)

很难求出所有风格的矩阵{Aj}, 参照文献[18], 可通过迭代的方式求解{Aj}.首先定义中间变量υi并令其为

(18)

此时每个风格矩阵Aj固定为单位矩阵.式(16)变为

(19)

由式(17)可得

(20)

在式(18) ~ (20)之间迭代计算Ajυi, 直到满足或达到最大迭代次数P[18].其中φ为一阈值, 可根据实际实验结果人为设定.

根据模糊K平面参数学习和数据风格信息学习两个独立的程序可迭代计算出U、{ωj}、{ bj}、Aj四个参数直到满足或达到最大迭代次数H, 其中Ajh为第h次迭代过程中第j个聚类的风格矩阵.

1.5 ISF-KPC算法及其复杂度分析

通过第1.4节对ISF-KPC目标函数优化问题的描述, 可得到以下算法过程描述.

输入:给定数据集X=[x1, x2, xN]T, 每个样本xiRd, 聚类数k, 双知识表达中的增量学习执行次数S, 所选高斯函数核宽度σ, 风格调节参数λ, 最大迭代次数PH, 迭代终止条件φ和θ, 模糊隶属度指数m;

输出:各聚类平面参数ωj}与{ bj}, 风格矩阵{Aj }, 模糊隶属度矩阵U, 预测标签集Y.

step 1:设定s=1, Xs=X0.

step 2:执行双知识表达中的增量学习, 生成增强节点Zs=[z1s, z2s, zNs]T, 继而生成新的输入Xs=[Xs-1, Zs]T.

step 3:设定h=0.

step 4:循环直至程序收敛或达到最大迭代次数H.

step 4.1:初始化{Aj}、U.

step 4.2:h=h+1.

step 4.3:利用式(7)和(11)求解{ωj}、{ bj}.

step 4.4:利用式(14)确定U.

step 4.5:迭代确定{Aj}.

step 4.5.1:设定p=1;

step 4.5.2:循环直至程序收敛或达到最大迭代次数P;

step 4.5.3:利用式(18)和(20)确定{Aj}.

根据ISF-KPC算法流程描述可得出以下算法复杂度分析(每个步骤均考虑最高阶情况下的复杂度): step 2中需要计算每一对样本间的距离, 因此step 2占用的复杂度为O(N2).对于step 4.1中初始化操作, 如果考虑模糊隶属度矩阵U中每个元素随机赋值且, μij>0, ∀ i, 则step 4.1占用的复杂度为O(2N).对于step 4.3, 在确定各个聚类平面参数ωjbj前需要由式(10)计算Dj, 该操作相应的复杂度为O(d2N+2dN2+d3). ωj为与Dj最小特征值相对应的特征向量, 因此确定ωj占用的复杂度为O(d3).根据式(11)可确定bj, 占用的复杂度为O(d3 +dN2), 因此当考虑最高阶时step 4.3占用的复杂度大小为O[k(3d3+3dN2+d2N)].根据式(14)可确定U中每个元素, step 4.4占用的复杂度为O(d4N). step 4.5每一次迭代计算Aj的过程中需要首先由式(18)确定υi, 该操作占用的复杂度为O(d3).另外, 根据式(20), 需要O(N2d+2d2)复杂度计算Aj, 因此step 4.5计算{ Aj}的复杂度为O[kP(dN2+d3)].综上所述, ISF-KPC整个算法复杂度为O[SH(d4N+3dN2+kPdN2)].在迭代次数有限的情况下, ISF-KPC算法复杂度主要与样本维度和样本总数相关.因此ISF-KPC适合于样本维度和样本总数适当情况下的聚类分析.

2 实验与分析

本节将在人造数据集以及具有典型数据风格的真实数据集上验证所提ISF-KPC的聚类性能, 并通过与其他算法的比较表明ISF-KPC中双知识表达的有效性.

2.1 对比算法及参数设置

由于ISF-KPC以KPC算法[11]为基础, 将KPC及其模糊化版本F-KPC作为对比算法.为了验证双知识表达的有效性, 将ISF-KPC的简易版本ISF-KPC_0, 即仅考虑单一知识表达(数据风格信息学习)作为对比算法之一. ISF-KPC中引入模糊隶属度约束, 并将聚类中心点替换成聚类平面, 选择典型的基于中心点的聚类算法K-medoids[15]和FCM[16]作为对比算法.由于affinity propagation (AP)[19-20]和density-based spatial clustering of applications with noise (DBSCAN)[21-22]两种算法能够识别具有任意形状的数据, 将这两种算法也作为对比算法.

由式(3)和增量学习过程可知, ISF-KPC共涉及6个参数, 分别为聚类平面参数{ωj }、{ bj}、模糊隶属度矩阵U、风格矩阵{Aj}、风格调节参数λ和增量学习高斯函数中的核宽度σ. { ωj}、{ bj}、U及{Aj}可由模糊K平面参数学习与数据风格信息学习两个独立的程序根据真实数据集迭代确定, 因此ISF-KPC主要确定λ和σ两个参数.根据大量的实验结果可给出以下关于这两个参数的推荐设置:参数σ的搜索范围为{10-2, 10-1,102,…,103}, 对于σ的每一个值, 增量学习后所有新生成的数据间的平均欧氏距离为.其中: N为样本总数, dij为第i个样本与第j个样本之间的欧氏距离.由此可设置参数λ的值等于 D的量级, 或在D的量级附近进行搜索.对于λ和σ, 均采用网格搜索相结合交叉验证的方法进行确定[5, 23].

关于其他对比算法, ISF-KPC_0并没有考虑增量学习, 其涉及的参数ωj}、{ bj }、U、{Aj}以及λ均可参考ISF-KPC进行设置. KPC参数k设置为数据集中聚类数. F-KPC参数k设置为数据集中聚类数, 模糊隶属度矩阵U及模糊隶属度指数可参照FCM算法. K-medoids参数k设置为数据集中聚类数, FCM算法采用默认设置. AP算法的聚类性能主要受参数参考度PR影响, 参考文献[19], 在样本相似度中值附近采用网格搜索结合交叉验证的方法确定PR. DBSCAN算法主要受参数样本邻域阈值Eps和样本邻域内样本个数阈值MinPts影响, 在文献[22, 24]推荐设置值附近采用网格搜索结合交叉验证的方法分别确定Eps和MinPts.

对于KPC、F-KPC以及K-medoids三种算法, 分别运行30次后取平均结果, 其他算法运行10次后取平均结果.所有算法均在Matlab平台上运行, 电脑配置为: 3.6 GHz且Intel(R)Core(TM)i7-4790 CPU, 8 G内存, 64位Windows 10操作系统.

2.2 数据集

本文在人造数据集上视觉地展示ISF-KPC算法的聚类性能, 在真实数据集上验证ISF-KPC的实际聚类性能.

图 3为本文采用的人造数据集, 其中SD1、SD2、SD3中每一类数据对应典型的形状, 意味着这3个数据集包含明显的数据风格.由于SD4中有一类数据为高斯随机分布, SD5中4类数据对应同样的形状, SD6中3类数据都为高斯随机分布, 因此这3个数据集并不包含明显的数据风格.人造数据集详细配置信息如表 1所示.

图 3 人造数据集
表 1 人造数据集详细配置

本文在真实数据集上展示ISF-KPC独特的聚类性能, 且每一个真实数据集具有明显的数据风格.如引言所述, 选取癫痫脑电信号识别、手写体识别以及元音识别作为3个案例.

对于癫痫脑电信号[5-6], 其原始信号和经核化主成分分析(kernel principal component analysis, K-PCA)降维后的特征分别如图 4图 5所示.由图 4图 5可见, 正常人群的脑电信号(A组和B组)明显区别于患癫痫人群的脑电信号(C组、D组和E组), 即使属于同一人群, 所表现出的脑电信号也相互区别, 如A组和B组所示.实验中分别将A组与B组, B组与D组, B组、D组与E组组成真实数据集, 并分别命名为EEG-D1、EEG-D2和EEG-D3. 3个真实数据集的详细配置如表 2所示, 每个数据集都包含不同的数据风格, 且每个聚类对应的数据风格各不相同.

图 4 EEG原始信号
图 5 经K-PCA特征降维后的EEG信号
表 2 真实数据集详细配置

对于手写体识别[1, 4, 7-8], 实验中选取Chinese academy of science institute of automation (CASIA)官网公布的手写体数据集[7], 其中部分数据如图 6所示.由此可见, 出自每一位作者的手写体均相互区别, 因此相应的手写数据风格也相互区别.实验中分别将来自以下作者的手写体数据组成真实数据集: luan和taojing, liuchuankai和lulingling, chaowenting、fuyu和maying, 并将这3个数据集分别命名为HWD1、HWD2和HWD3.另外, 参照文献[1], 从每一位作者的手写体数据中随机选取2 000个样本组成以上3个数据集. 3个真实数据集的详细配置如表 2所示.

图 6 手写体部分数据展示

对于元音识别[1, 8], 表 3列出了每个具体元音展示.由此可知, 每个元音的发音各不相同, 不管男女, 同一个元音的发音相同, 意味着同一个元音的发音具有相同的风格.实验中分别将元音数据集Vowel[1, 8]中标签为3和5, 标签为6和7, 标签为1、4和9对应的样本组成相应的真实数据集, 并分别命名为VD1、VD2和VD3. 3个真实数据集的详细配置如表 2所示.

表 3 英文中的元音展示
2.3 结果与分析

图 7表 4分别为所有对比算法在人造数据集上的聚类结果. 表 4中:正确率(Acc)、F-measure和Rand Index (RI)为外部类型的聚类评价指标[9-10, 25], Davies-Bouldin Index (DBI)为内部类型的聚类评价指标[26], “-”代表算法参数采用默认设置, “--”代表标准差小于10-4.最好的聚类正确率用黑体标出.由图 7表 4可得出以下结论:

图 7 对比算法在人造数据集上的聚类结果视觉展示
表 4 所有对比算法在人造数据集上的详细聚类结果

1) 就聚类正确率而言, ISF-KPC在人造数据集SD1、SD2、SD3和SD5上取得最好的聚类结果, 尤其对于包含典型数据风格的数据集SD1、SD2和SD3, ISF-KPC能够取得优越的聚类性能.就其他内外部聚类评价指标而言, ISF-KPC至少能够取得竞争性的聚类性能.

2) 对于其他对比算法, 由于能够识别任意形状的聚类, DBSCAN在人造数据集上能够取得较好的聚类结果.

3) 由于ISF-KPC考虑了数据双知识表达, 即特征增量学习和数据风格信息学习, ISF-KPC的聚类性能明显优于仅考虑数据风格信息的ISF-KPC_0.

4) 将ISF-KPC、ISF-KPC_0分别与KPC及F-KPC比较, 相关实验结果有力地验证了挖掘数据风格信息并用于提高聚类性能的有效性.

5) 在原输入特征基础上的增量学习次数只需1~3次, 增量学习过程简单且易于执行.

表 5详细列出了所有对比算法在真实数据集上的聚类结果, 且每一个真实数据集均包含典型的数据风格.由表 5可见, 就聚类正确率而言, ISF-KPC在所有真实数据集上取得最好的聚类结果, 就其他内外部聚类评价指标而言, ISF-KPC在多数情况下能够取得最好的聚类性能.与其他对比算法相比(除ISF-KPC_0之外), 由于考虑了数据风格信息, ISF-KPC在多数情况下至少能够取得竞争性的聚类性能.

表 5 所有对比算法在真实数据集上的详细聚类结果

为了进一步比较ISF-KPC与其他对比算法的区别, 利用文献[27]的统计测试方法对所有对比算法的聚类性能进行分析.

该统计测试方法主要包含FF和CD两个关键值[27]. FF用于确定该统计测试方法的空假设(即假设所有对比算法具有相同的聚类性能)是否被否定; CD用于验证对比算法之间的聚类性能是否存在显著区别.由表 5列出的聚类正确率对所有对比算法进行排序, 如对于EEG-D2, 因ISF-KPC取得了最好的聚类结果, 其排名为1, 即rank=1.依此类推, 可得出所有对比算法在所有真实数据集上的排序, 如表 6所示.根据对比算法排序值、F-分布及其自由度(Nc -1)、(Nc-1)(Nd-1)可确定FF值.只要满足FF>F((Nc-1), (Nd-1)), 该统计测试方法的空假设即被否定.其中Nc代表所有对比算法个数, Nd代表真实数据集个数, F(·, ·)根据F-分布表可查出[27].基于空假设被否定, 可进一步计算CD值.其中CD= .(α为显著性度,其值取文献[27]推荐值α=0.05,qα可从文献[27]查出).任意两个对比算法平均排序差值的绝对值大于该CD值即表明这两个对比算法的聚类性能之间存在显著区别.

表 6 所有对比算法在真实数据集上的排序

表 5表 6可知, F(7, 56)≈2.18、FF≈8.87, 因此该统计测试方法的空假设被否定.由给出的显著性度α=0.05可计算CD≈3.12.根据统计测试结果可得出以下结论:

1) 由于ISF-KPC与其他对比算法(除ISF-KPC_0与F-KPC外)之间的平均排序差值都大于CD≈3.12, ISF-KPC与其他对比算法之间存在显著区别.另外, 由于ISF-KPC考虑了双知识表达, 其聚类性能优于ISF-KPC_0和F-KPC.

2) 由于挖掘并利用了数据风格信息约束聚类行为, ISF-KPC_0的聚类性能优于其他对比算法(除ISF-KPC外), 特别地, ISF-KPC_0与AP算法之间存在显著区别.

3) 结合1)和2), 在真实数据集上的统计测试结果充分表明了数据双知识表达确实能够提高聚类算法性能, 尤其基于数据风格信息的聚类算法, 其聚类性能能够显著区别于典型聚类算法.

3 结论

由于数据集中的每一类数据都潜在或明显地具有独特的数据风格, 这些风格信息显著区别于数据物理特征.如何挖掘隐藏的数据风格信息并用于聚类分析是一个值得研究的课题.本文利用风格矩阵迭代地捕捉数据集中每个聚类的数据风格信息, 这些风格矩阵相互区别.另外, 沿着高斯型SVM将输入特征从低维空间映射到高维空间的思想, 本文在原输入特征空间中增量式地对原输入特征进行扩维.通过增量学习和数据风格矩阵对数据进行双知识表达以强化聚类性能.人造数据集尤其真实数据集上的实验结果验证了ISF-KPC中双知识表达的有效性.真实数据集上的统计测试结果表明ISF-KPC与典型聚类方法之间存在显著区别.未来的研究会重点关注如何将ISF-KPC扩展到回归模型, 进一步研究本文双知识表达并将ISF-KPC推广到深度学习.

参考文献
[1]
Huang K Z, Jiang H C, Zhang X Y. Field support vector machines[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2017, 1(6): 454-463. DOI:10.1109/TETCI.2017.2751062
[2]
Jiang S H, Shao M, Jia C C, et al. Learning consensus representation for weak style classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(12): 2906-2919. DOI:10.1109/TPAMI.2017.2771766
[3]
Veeramachaneni S, Nagy G. Analytical results on style-constrained Bayesian classification of pattern fields[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(7): 1280-1285. DOI:10.1109/TPAMI.2007.1030
[4]
Sarkar P, Nagy G. Style consistent classification of isogenous patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(1): 88-98. DOI:10.1109/TPAMI.2005.18
[5]
Jiang Y Z, Deng Z H, Wang S T, et al. Recognition of epileptic EEG signals using a novel multiview TSK fuzzy system[J]. IEEE Transactions on Fuzzy Systems, 2017, 25(1): 3-20. DOI:10.1109/TFUZZ.2016.2637405
[6]
Xie L X, Deng Z H, Wang S T, et al. Generalized hidden-mapping transductive transfer learning for recognition of epileptic electroencephalogram signals[J]. IEEE Transactions on Cybernetics. DOI:10.1109/TCYB.2018.2821764
[7]
Chinese Academy of Sciences Institute of Automation (CASIA). Handwriting database[DB/OL]. [2018-10-07]. http://biometrics.idealtest.org/.
[8]
Zhang X Y, Huang K Z, Liu C L. Pattern field classification with style normalized transformation[C]. Proceedings of the 22th International Joint Conference on Artificial Intelligence. Spain: IEEE, 2011: 1621-1626. https://www.researchgate.net/publication/220816336_Pattern_Field_Classification_with_Style_Normalized_Transformation
[9]
陈爱国, 王士同. 基于多代表的大规模数据模糊聚类算法[J]. 控制与决策, 2016, 31(12): 2122-2130.
(Chen A G, Wang S T. Fuzzy clustering algorithm based on multiple medoids for large-scale data[J]. Control and Decision, 2016, 31(12): 2122-2130.)
[10]
乔颖, 王士同, 杭文龙. 大规模数据集引力同步聚类[J]. 控制与决策, 2017, 32(6): 1075-1083.
(Qiao Y, Wang S T, Hang W L. Clustering by gravitational synchronization on large scale dataset[J]. Control and Decision, 2017, 32(6): 1075-1083.)
[11]
Bradley P S, Mangasarian O L. k-plane clustering[J]. Journal of Global Optimization, 2000, 16(1): 23-32. DOI:10.1023/A:1008324625522
[12]
Shao Y H, Bai L, Wang Z, et al. Proximal plane clustering via eigenvalues[J]. Procedia Computer Science, 2013, 17: 41-47. DOI:10.1016/j.procs.2013.05.007
[13]
Jayadeva, Khemchandani R, Chandra S, et al. Twin support vector machines for pattern classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 29(5): 905-910. DOI:10.1109/TPAMI.2007.1068
[14]
Wang Z, Shao Y H, Bai L, et al. Twin support vector machine for clustering[J]. IEEE Transactions on Neural Networks and Learning Systems, 2015, 26(10): 2583-2588. DOI:10.1109/TNNLS.2014.2379930
[15]
Park H S, Jun C H. A simple and fast algorithm for K-medoids clustering[J]. Expert Systems with Applications, 2009, 36(2): 3336-3341. DOI:10.1016/j.eswa.2008.01.039
[16]
Bai X, Chen Z, Zhang Y, et al. Infrared ship target segmentation based on spatial information improved FCM[J]. IEEE Transactions on Cybernetics, 2016, 46(12): 3259-3271. DOI:10.1109/TCYB.2015.2501848
[17]
Anand S, Mittal S, Tuzel O, et al. Semi-supervised kernel mean shift clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(6): 1201-1215. DOI:10.1109/TPAMI.2013.190
[18]
Fang X Z, Wong W K, Teng S H, et al. Flexible affinity matrix learning for unsupervised and semisupervised classification[J]. IEEE Transactions on Neural Networks and Learning Systems. DOI:10.1109/TNNLS.2018.2861839
[19]
Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315: 972-976. DOI:10.1126/science.1136800
[20]
Arzeno N M, Vikalo H. Semi-supervised~affinity propagation with soft instance-level constraints[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(5): 1041-1052. DOI:10.1109/TPAMI.2014.2359454
[21]
Sakai T, Tamura K, Kitakami H. Density-based adaptive spatial clustering algorithm for identifying local high-density areas in georeferenced documents[C]. Proceedings IEEE International Conference System, Man, and Cybernetics. New York: IEEE, 2014: 513-518. https://www.researchgate.net/publication/286944518_Density-based_adaptive_spatial_clustering_algorithm_for_identifying_local_high-density_areas_in_georeferenced_documents
[22]
Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[C]. Proceedings of ACM Conference on Knowledge Discovery and Data Mining. New York: ACM, 1996: 226-231. https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf
[23]
Jiang Y Z, Deng Z H, Wang S T, et al. Realizing two-view TSK fuzzy classification system by using collaborative learning[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2017, 47(1): 145-160. DOI:10.1109/TSMC.2016.2577558
[24]
Hou J, Gao H J, Li X L. DSets-DBSCAN: A parameter-free clustering algorithm[J]. IEEE Transactions on Image Processing, 2016, 25(7): 3182-3193. DOI:10.1109/TIP.2016.2559803
[25]
Wang Y T, Chen L H, Mei J P. Incremental fuzzy clustering with multiple medoids for large data[J]. IEEE Transactions on Fuzzy Systems, 2014, 22(6): 1557-1568. DOI:10.1109/TFUZZ.2014.2298244
[26]
Davies D L, Bouldin D W. A cluster separation measure[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1979, PAMI-1(2): 224-227. DOI:10.1109/TPAMI.1979.4766909
[27]
Demsar J. Statistical comparisons of classifiers over multiple data sets[J]. Journal of Machine Learning Research, 2006, 7: 1-30.