高斯混合模型的上采样分析
2024-02-06
来源:爱go旅游网
第15卷第2期 2 01 7年06月 生物信息学 Chinese Journal of Bioinformatics Vol_l5 No.2 Jun.2017 DOI:10.3969/j.issn.1672—5565.20161019001 高斯混合模型的上采样分析 沈乐阳 ,孙廷凯 (南京理工大学计算机科学与工程学院,南京210094) 摘要:在机器学习问题中,类别不平衡问题严重影响一些标准分类器的性能。因此,解决类别不平衡问题尤为重要。上采 样是解决类不平衡问题的常用方法,其通过合成新的少数类样本来平衡类的分布。在文中,使用一种基于高斯混合模型的上 采样方法来解决不平衡学习问题。通过高斯混合模型来模拟少数类的分布,在此基础上使用高斯模型来生成新的少数类样 本。在UCI类别不平衡数据集上的实验结果表明,所提出的方法能够缓解类不平衡所带来的负面影响并帮助提升分类性能。 关键词:不平衡学习;支持向量机;高斯混合模型;上采样 中图分类号:TP181 文献标志码:A 文章编号:1672—5565(2017)02—084—06 A new over-sampling algorithm by gaussian mixture model SHEN Leyang ,SUN Tingkai (School ofComputer Science and Engineering,Na ng University ofScience and Technology,Na ng 210094,China) Abstract:It’S signiicant to solfve the class—imbalance problems which have a serious impact on the performance of standard classiiers in machifne learning problems.Over—sampling is a popular method in dealing with class— imbalance problems,which attempts to balance the sizes of different classes by generating additional samples for minority class.We propose a new over—sampling algorithm that synthesizes new additional samples for minority classes by the Gaussian mixture mode1.Comparing with several state—of-art related methods on UCI datasets,the experimental results demonstrate that the proposed over—sampling algorithm can reduce the side effect of the class imbalance and help improve the classiication perfformance. Keywords:Imbalance learning;Support vector machine;Gaussian mixture model;Over—sample 在很多分类问题中,数据集往往是很不平衡的, 一都预测为多数类,这种情况下少数类都被错分。此 外,类别不平衡也与代价敏感学习紧密相关。对于一 些问题,错分少数类的代价往往高于错分多数类。 目前,不平衡学习的研究已经取得了相当大的 进展 J。目前的解决方法大致可分为3类:基于采 样的方法 、基于学习的方法(如敏感学习 )和 结合采样和学习的方法 。在上述3种方法中,基 些类的样本数目远远高于其他类,这就形成了不 平衡学习问题。许多传统的机器学习和数据挖掘算 法假设目标类具有相似的先验概率,但是许多现实 应用都严重违背了这种假设,如网络入侵检测、欺诈 检测、文本分类、风险管理和医学诊断等。从现实应 用的角度看,不平衡问题主要体现在两个方面:数据 本身的不平衡和外部因素导致的不平衡 。 类别不平衡严重影响分类器的预测性能。传统 的机器学习方法没有考虑到类别不平衡的问题,易于 产生偏向并忽略少数类样本,导致少数类样本被错 分 。例如,在一个多数类和少数类比例为99的问 于采样的方法是最基本的策略,如下采样 和上采 样 6 J。采样方法通过改变样本的数量和分布来平 衡不同类的样本,这种方法对于不平衡学习问题往 往有较好的效果。上采样对于不平衡学习问题是一 种较有效的方法。这种方法利用原始的少数类样本 题中,学习算法为了最小化错误率可能将所有的样本 收稿日期:2016—10—19;修回日期:2016—12-00. 基金项目:国家自然科学基金(61373062,61371040). 来合成新的少数类样本,从而增加少数类样本数目, 通信作者:沈乐阳,男,硕士研究生,研究方向:模式识别与生物信息学;E—mail 第2期 沈乐阳,等:高斯混合模型的上采样分析 85 平衡样本分布。但是上采样方法的主要问题有两 个:一方面,上采样扩大了训练集,导致训练和预测 的耗时增加;另一方面,上采样仅仅是复制原始少数 类样本,这导致了某些样本的重复,可能会出现过拟 合的问题。 本文使用上采样方法解决类别不平衡的二分类 问题。目前,很多上采样方法已经被提出,如随机上 采样(random over.sample,ROS)、合成少数类上采样 技术(synthetic minority over—sampling,SMOTE)。。 、 自适应合成采样(adaptive synthetic sampling, ADASYN) 和严格合成少数类上采样技术(critical SMOTE,CSMOTE) j。本文提出一种基于高斯混 合模型的上采样方法来生成新的少数类样本。高斯 模型被广泛用于分类或表示数据。因此,本文使用 高斯模型来模拟少数类样本的分布,在此基础上合 成新的少数类样本。 1 方法 1.1高斯混合模型 高斯混合模型(gaussian mixture model,GMM) 是单高斯模型的延伸,能够较好地描述数据的密度 分布。GMM假设所有的数据点都是由有限个高斯 分布生成的,通常作为概率分布的参数模型使用。 对于基于GMM的分类系统,模型训练的主要目的 就是估计参数使得高斯混合分布能够较好地匹配训 练集中特征向量的分布。GMM的参数主要是在先 验模型的基础上使用最大期望算法(expectation maximization,EM)进行估计 J。GMM可以认为是 个单一高斯概率密度函数的加权平均,其概率密 度分布函数为 M P( )=∑竹 Ⅳ( I ,∑ ). 式中: 为服从高斯混合分布的随机变量;M为高 斯分量的数目;竹 为第i个高斯分量的权重;Ⅳ( I i,∑ )为第i个高斯分量的概率密度函数; 、∑ 分别为第i个高斯分量的均值和方差。 1.2主成分分析和核主成分分析 主成分分析(principal component analysis,PCA) 是常用的线性降维方法,能够有效地从高维数据中 提取重要信息 J。PCA通过线性投影将高维数据 映射到低维空间中表示,并期望在所投影的维度上 的数据方差最大。PCA追求在降维后最大化保持 数据的内在信息,通过在投影方向上的数据方差衡 量该方向的重要性。PCA最初被用来分析多元数 据,但现在已经被广泛应用到其他方面,如去噪信 号、盲源分离和数据压缩等。 核主成分分析(kernel principal component analysis,KPCA) 。。是主成分分析的非线性扩展。 PCA从高维空间到低维空间的映射是线性的,对于 非线性映射往往无能为力。KPCA通过使用核技巧 来实现非线性的降维,被广泛使用于多种领域,如去 噪、压缩和结构预测等。 1.3支持向量机 支持向量机(support vector machine,SVM)已被 广泛用于多种领域 。本文选择使用支持向量机 作为基本的学习模型来评估所提出方法的有效性。 下面简单介绍支持向量机的基本思想。 给定样本集{( ,Y )} 。,其中 ∈R ,Y∈ {+1,一1},它们分别是第i个样本的特征向量和相 对应的标签,而+1和一1分别代表正类和负类的标签。 SVM寻找满足分类要求并拥有最大间隔的划 1 分超平面,即寻找最小化÷l lW l 1并满足如下约束 的参数W和b: Y ・(W ・ +b)≥1, 1,2,...,Ⅳ. 式中:W为超平面的法向量,『 lW『I 是w的欧几里 得范数。 本文使用LIBSVM¨ 工具构建模型,并选择被 广泛使用的高斯核函数K(x ,Y )=e—I IiI 作为 核函数。本文采用LIBSVM软件中基于交叉验证的 网格搜索策略优化正则参数和核参数。LIBSVM的 最新下载地址为https://www.csie.ntu.edu.tw/~ cjlin/libsvm/。 1.4 Tomek links 如果两个属于不同类别的样本点都是彼此的最 近邻,那么他们就构成了一个Tomek link Ll 。记点 对( , )的距离为d(x ,Xj),其中 ∈S i ,xj∈ S 。如果不存在点 使得d( , )<d(x , )或 d( , )<d(x , ),那么点对( , f)就是一个 Tomek link。如果点对属于Tomek link,则该点对属 于噪声或边界点。因此,本文利用Tomek links方法 来清洗采样后类间的数据交叠,建立类簇分布良好 的训练集,以此提高分类性能。 1.5提出的方法 上采样方法的关键问题是如何生成有效的新的 样本。高斯混合模型基于多变量正态分布,假设数 据集是多个混合在一起的多元高斯分布,从而用极 大似然估计的思想来将数据聚类,达到描述数据分 布的目的。尽管高斯混合模型常用于聚类,但其有 效地描述了数据的密度分布。此外,在实际应用中 高斯混合模型的使用十分广泛,高斯分布很常见, 生 物 信 息 学 第15卷 很少出现不符合其假设的应用场景。因此,本文 利用该思想,单独对少数类的样本进行聚类,从而 得到少数类样本的数据分布。在此基础上,利用 得到的模型随机生成新的少数类样本,达到采样 的目的。 在整个采样算法中有两个需要注意的问题。首 先,在利用高斯混合模型对少数类样本的分布进行 模拟之前,需要对样本数据有一定的了解。虽然高 斯混合模型并不假设数据集到底是由多少个多元高 斯分布叠加而成的,但是如果能够知道这个信息,算 法能够更快速准确地学习到数据的结构。总之,能 够利用的信息越多,算法的效果就会越好。因此,在 使用高斯混合模型对少数类样本进行模拟前应充分 了解数据的特性。其次是采样比例的问题。本文采 样并不需要达到绝对的平衡。对于不平衡比例较大 的数据集,如果采样比例过大,同样会造成分类器性 能的降低。因此,对于不同类别比例的数据集,需要 采样的数目也不一样。在本文中,使用增长比例来 衡量采样的数目。记原始数据集多数类样本与少数 类样本的比例为 ,上采样后多数类样本与少数类 样本的比例为 ,则增长比例为 。此外,在最 后的筛选环节仍然会剔除一些样本,因此需要稍微 增加增长比例。在本文的实验中,一般将增长比例 设为2。 记训练集为S=S i u S ,其中,S i 、s 分 别为少数类的样本集和多数类的样本集。本文提出 的方法主要是通过上采样合成新的少数类样本来获 得一个相对平衡的训练集,记为s…。记O/为采样 系数,控制生成样本的数目。 为置信度,决定生成 样本是否可信。 本文提出方法的主要流程如下。 步骤1 利用高斯混合模型对少数类样本s i 进行建模,得到模型Gm。 。生成的模型用于接下 来合成样本。 G 。del Model(S i ). 步骤2记少数类样本的数目为Ⅳ 利用高 斯混合模型随机生成新的少数类样本,记采样得到 的样本集为 .s nle Sample(Gm。del,O/‘Nmi ). 步骤3经过上述的采样本文得到了新的少数 类样本,但由于上采样经常会引人数据交叠的问题, 因此必须对训练集进行清洗。本文选择Tomek links技术进行清洗,去除由采样引入的数据交叠为 Js 。 Tomeklinks(S,S 。l ). 1.6评价指标 在处理类别不平衡问题时,衡量性能的指标也 有所不同。本文中,使用查准率(precision)、查全率 (recal1)、F—Measure和G—mean来综合衡量分类器的 性能,定义如下: T、 . .TP ∞ mn , au= , ,一M。 u 。: ‘. ’Recall+Precision G一—m锄 √ 厂1 ———1 — × ‘ 式中: 为衡量查准率对查全率相对重要性的系数, 通常为1;TP(true positive)、FP(false positive)、TN (true negative)和FN(false negative)分别为正确预 测为正类的数目、错误预测为正类的数目、正确预测 为负类的数目和错误预测为负类的个数,其性能可 用混淆矩阵(confusion matirx)来表示,如图1所示。 预测结果 正类 负类 TP FN 止 妻类 (true positive) (false negative) 情 况负 FP TN 类 (false posiitve) (true negative) 图1混淆矩阵 Fig.1 Confusiton matrix 但是上述指标都是基于阈值的,选取不同的阈 值可以得到不同的结果。因此本文还使用了另外一 种评价指标AUC(area under roc curve),即ROC (receiver operating characteristic)曲线下的面积。与 上述4种指标不同,AUC是与阈值无关的且与分类 器的性能成正比,因此本文选择AUC来衡量分类器 的总体预测性能。 2结果与分析 2.1采样前后特征值比较 为了进一步了解本文使用的采样方法,采用 KPCA方法对采样前后的数据进行主成分分析。为 了更好地展现实验结果,本文使用二维数据进行实 验。在该实验中,使用了banana数据集、同心圆数 据集和3个高斯分布构成的数据集进行实验。本文 分别对采样前后的数据进行KPCA主成分分解,并 第2期 沈乐阳,等:高斯混合模型的上采样分析 87 根据不同的主成分画出等高线图。 在banana数据集上的结果如图2所示,可以发 而第3个和第4个主成分分别将数据分成:4 部分和5部分,与采样后的情况基本一致。对于特 征值而言,采样前后基本不变,尤其是第1个主成 分,仅仅相差0.02%。 现在图1中采样前第1个主成分很好地将数据分成 了两部分,第2个主成分将数据分成3部分, 5 O 一5 o .5 5 .10 一l0 图2 banana数据集采样前后主成分对比 Fig.2 Comparisons of principal componen ̄on before-sampling and after-samping banana dataset 在同心圆数据集上的实验结果如图3所示。本 文发现在同心圆上的结果不同于banana数据集,在 采样前后主成分对数据的划分不是完全相同。第1 个主成分在采样前后都将数据划分成了两部分,并 且特征值也比较接近,两部分的中心分布也比较相 似。而在第2个和第3个在采样前将数据分别划分 为3部分和2部分。由此可以发现采样改变了数据 的分布,但是特征值还是比较接近的。第4个主成 分在采样前后都将数据划分成了4部分,各部分中 心的分布也比较相似,特征值变化也不是很大。总 体而言,采样前、后有的分布还是比较类似的,没有 发生比较大的变化。 为2部分和3部分,但是在采样后分别将数据划分 before sample:val 0 072 5 0 1 2 3 4 O 1 2 3 4 0 1 2 3 4 lO 5 O 一5 图3同心圆数据集采样前后主成分对比 Fig.3 Comparisons of principal components on before-sampling and after-samping circle datasets 在3个高斯分布合成的数据集上的实验结果 如图4所示。本文可以很明显地发现在4个主成 分上采样前后的分布基本相同,第1个和第2个主 值也很相近。而第3个和第4个主成分都将数据 划分成了4部分,但是中心位置的分布略有不同。 但是就采样前后的比较而言,两个主成分的结果基 本相同。 成分都将数据很好地划分成了3部分,并且特征 88 生 物 信 息 学 before sample:val=0 072 7 第l5卷 before sample:val=O.063 7 12 l0 8 6 4 l2 lO 8 6 l2 l0 8 6 4 2 4 2 O .2 0 .0 .2 2 2 图4 3个高斯分布合成的数据集采样前后主成分对比 Fig.4 Comparisons of principal components on before・sampling and after—samping gaussian datasets 2.2 UCI数据集上的实验结果 s方法。而从多数类和少数类的比例角度来看, GOS方法在比例较低和较高的情况下的AUC值往 往较高,而在比例值为14.3O的Yeast1vs7数据集上 的表现较差。 表2 SVM、CSMOTE、RUSBoost和HE—S方法在AUC值 上的比较 Table 2 AUC comparisons between SVM.CSMOTE。 RUSBoost and HES for serveral datasets 为了验证本文所提出的方法,使用UCI(university of california,irvine)机器学习库中的一些不平衡数 据集来进行实验 ,数据集及其特性见表1。 2 0 8 6 4 2 O 2 2 O 8 6 4 2 O 2 表1数据集描述 Table 1 Summary description of datasets 本文将比较几种针对不平衡数据集的方法在上 述数据集上的性能,包括SVM方法、CSMOTE方法、 随机下采样集成方法(RUSBoost)¨ 、 HaMEnsemble(HE—S) 方法及所提出的GOS方 法。RUSBoost结合采样和boosting集成方法,是 SMOTEBoost 的变种方法。SMOTEBoost利用 SMOTE合成少数类样本,而RUSBoost则使用了随 机下采样来实现样本的平衡。HaMEnsemble方法 注:{数据来自文献【5 J. 而不同方法在几种数据集上的F—Measure值和 G—mean值的比较结果见表3、4。本文发现GOS方 法的F.Measure值优于其他4种方法,尤其在 Yeast1vs7数据集上,其结果远远高于其他4种方 法。在几种数据集上,GOS方法的F—Measure值最 少比其他方法高1%。而对于G—mean值而言,GOS 方法在Ecoli3和Yeast1458vs7数据集上高于其他方 法,在Yeast1vs7数据集上仅仅低于CSMOTE方法。 而在Ecoli数据集中,GOS方法的G.mean值低于 RUSBoost和HE—S方法。总体而言,GOS在不同平 衡比例的数据集上的F—Measure值有很好的表现, 高于其他4种方法,并且在AUC值和G-mean值上 也有不俗的表现。而从多数类和少数类的比例角度 来看,GOS方法在不同比例数据上都有较好的表 结合了上采样和下采样的方法来减少不同采样带来 的负面影响,从而提高分类的性能。 首先,本文考察AUC指标,其结果见表2。在 Yeast1458vs7数据集上,GOS的AUC值高于其他4 种方法,但在Yeast1vs7数据集上,GOS的AUC值远 远低于其他方法。在其他3种数据集中,GOS的 AUC值略优由于CSMOTE,但稍稍低于SVM和HE— 第2期 沈乐阳,等:高斯混合模型的上采样分析 89 现,尤其在比例较高的情况下,该方法的F-Measure 值和G.mean值远远高于其他方法。 表3 SVM、CSMOTE、RUSBoost和HE—S方法在 F.Measure值上的比较 Table 3 F-Measure comparisons between SVM,CSMOTE, RUSBoost and HE—S for serveral datasets 注: 数据来自文献[5] 表4 SVM、CSMOTE、RUSBoost和HE—S方法在G-mean 值上的比较 Table 4 G—mean comparisons between SVM。CSMOTE, RUSBoost and HE—S for serveral datasets 注: 数据来自文献[5] 3结语 本文中,对一个新的上采样方法进行了研究,该 方法基于高斯混合模型合成新的少数类样本,在此 基础上使用Tomek links技术对新生成的样本进行 筛选,最终得到相对平衡的训练集样本。在UCI不 平衡数据集上对GOS方法进行实验,并和其他预测 方法相比较。实验结果表明,该方法有助于缓解类 不平衡,并提升分类的准确性。 参考文献(References) [1]cHAWLA N V,JAPKOWICZ N,KOTCZ A.Editorila: special issue on learning from imbalanced data sets[J]. ACM Sigkdd Explorations Newsletter,2004,6(1):1—6. DOI:10.1 145/1007730.1007733. [2]HE Haibo,GARCIA E A.Learning from imbalanced data [J].IEEE Transactions on Knowledge and Data Enginee- ring,2009,21(9):1263—1284.DOI:10.1109/TKDE. 2oo8.239. [3]ESTABROOKS A,JO T,JAPKOWICZ N.A muhiple resa— mpling method for learning from Imbalanced data sets[J]. Computational Intelligence,2004,20(1):18—36.DOI: 10.111l/j.0824—7935.2004.t01—1—00228.x. [4]ZHOU Zhihua,LIU Xuying.On multi—class cost.sensitive learning[J].Computational Intelligence,2010,26(3): 232—257.DOI:10.11 1 1/j.1467-8640.2010.00358.x. [5]NANNI L,FANTOZZI C,LAZZARINI N.Coupling diffe— rent methods for overcoming the class imbalance problem [J].Neurocomputing,2015,158:48—61.DOI:10.1016/ j.neucom.2015.01.068. 『6]CHAWLA N V,B0wYER K w,HALL L 0,et a1. SMOTE:synthetic minority over-sampling technique[J]. Journal of Artiifcial Intelligence Research,2002,16(1): 321—357.DOI:10.1613/jair.953. [7]HE Haibo,BAI Yang,GARCIA E A,et a1.ADASYN: Adaptive synthetic sampling approach for imbalanced learn・ ing[C]//Proceedings of the 2008 IEEE International Joint Conference on Neural Networks(IEEE World Congress on Computational Intelligence).HongKang:IEEE,2008: 1322—1328.DOI:10.1 109/HCNN.2008.4633969. [8]ULUKAYA S,ERDEM C E.Gaussian mixture model based estimation of the neutral face shape for emotion recognition [J].Digital Signal Processing,2014,32:11—23.DOI: 10.1016/j.dsp.2014.05.013. [9]周志华.机器学习[M].北京:清华大学出版社,2016. 229-232. ZHOU Zhihua.Machine learning[M].Beijing:Tsinghua University Press,2016:229—232. [10]LI Junbao,GAO Huijun.Sparse data—dependent kernel principal component analysis based on least squares sup— port vector machine for feature extraction and recognition [J].Neural Computing and Applications,2012,21(8): 1971-1980.DOI:10.1007/s00521—011一O600一z. [11]DIOSAN L,ROGOZAN A,PECUCHET J P.Improving classiifcation performance of support vector machine by ge— netieally optimising kernel shape and hyper—parameters [J].Applied Intelligence,2012,36(2):280—294.DOI: 10.1007/sl0489—010—0260-1. [12]CHANG C C,LIN C J.LIBSVM:a library ofr suppotr vec— tor machines lJ 1.ACM Transactions on Intelligent Systems nad Technology(TIST),2011,2(3):27.DOI:10. 1145/1961189.1961199. [13]ZHANG Jing,CAO Peng,GROSS D P,et a1.On the ap— plication of multi-class classiifcation in physical therapy recommendation[J].Health Information Science and Systems,2013,1(1):15.DOI:10.1186/2047—2501— 1—15. [14]SEIFFERT C,KHOSHGOFI'AAR T M,HULSE J V,et 1a.RUSBoost:A hybrid approach to alleviating class im— balance[J].IEEE Trnasactions on Systems,Man,and Cy— bernetics—Part A:Systems and Humans,2010,40(1): 185-197.DOI:10.1 109/TSMCA.2009.2029559. [15]CHAWLA N V,LAZAREVIC A,HALL L 0,et a1. SMOTEBoost:Improving prediction of the minority clsas in boosting[C]//European Conference on Principles of Data Mining and Knowledge Discovery.Berlin:Springer,2003: 107-119.DOI:1O.1007/978-3—54O一39804—2 12.