高斯混合模型的上采样分析

2024-02-06 来源：爱go旅游网

第１５卷第２期　２　０１　７年０６月　生物信息学　Ｃｈｉｎｅｓｅ　Ｊｏｕｒｎａｌ　ｏｆ　Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ　Ｖｏｌ＿ｌ５　Ｎｏ．２　Ｊｕｎ．２０１７　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７２—５５６５．２０１６１０１９００１　高斯混合模型的上采样分析　沈乐阳　，孙廷凯　（南京理工大学计算机科学与工程学院，南京２１００９４）　摘要：在机器学习问题中，类别不平衡问题严重影响一些标准分类器的性能。因此，解决类别不平衡问题尤为重要。上采　样是解决类不平衡问题的常用方法，其通过合成新的少数类样本来平衡类的分布。在文中，使用一种基于高斯混合模型的上　采样方法来解决不平衡学习问题。通过高斯混合模型来模拟少数类的分布，在此基础上使用高斯模型来生成新的少数类样　本。在ＵＣＩ类别不平衡数据集上的实验结果表明，所提出的方法能够缓解类不平衡所带来的负面影响并帮助提升分类性能。　关键词：不平衡学习；支持向量机；高斯混合模型；上采样　中图分类号：ＴＰ１８１　文献标志码：Ａ　文章编号：１６７２—５５６５（２０１７）０２—０８４—０６　Ａ　ｎｅｗ　ｏｖｅｒ－ｓａｍｐｌｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｂｙ　ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ　ＳＨＥＮ　Ｌｅｙａｎｇ　，ＳＵＮ　Ｔｉｎｇｋａｉ　（Ｓｃｈｏｏｌ　ｏｆＣｏｍｐｕｔｅｒ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｎａ　ｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＳｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ，Ｎａ　ｎｇ　２１００９４，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｉｔ’Ｓ　ｓｉｇｎｉｉｃａｎｔ　ｔｏ　ｓｏｌｆｖｅ　ｔｈｅ　ｃｌａｓｓ—ｉｍｂａｌａｎｃｅ　ｐｒｏｂｌｅｍｓ　ｗｈｉｃｈ　ｈａｖｅ　ａ　ｓｅｒｉｏｕｓ　ｉｍｐａｃｔ　ｏｎ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｓｔａｎｄａｒｄ　ｃｌａｓｓｉｉｅｒｓ　ｉｎ　ｍａｃｈｉｆｎｅ　ｌｅａｒｎｉｎｇ　ｐｒｏｂｌｅｍｓ．Ｏｖｅｒ—ｓａｍｐｌｉｎｇ　ｉｓ　ａ　ｐｏｐｕｌａｒ　ｍｅｔｈｏｄ　ｉｎ　ｄｅａｌｉｎｇ　ｗｉｔｈ　ｃｌａｓｓ—　ｉｍｂａｌａｎｃｅ　ｐｒｏｂｌｅｍｓ，ｗｈｉｃｈ　ａｔｔｅｍｐｔｓ　ｔｏ　ｂａｌａｎｃｅ　ｔｈｅ　ｓｉｚｅｓ　ｏｆ　ｄｉｆｆｅｒｅｎｔ　ｃｌａｓｓｅｓ　ｂｙ　ｇｅｎｅｒａｔｉｎｇ　ａｄｄｉｔｉｏｎａｌ　ｓａｍｐｌｅｓ　ｆｏｒ　ｍｉｎｏｒｉｔｙ　ｃｌａｓｓ．Ｗｅ　ｐｒｏｐｏｓｅ　ａ　ｎｅｗ　ｏｖｅｒ—ｓａｍｐｌｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｔｈａｔ　ｓｙｎｔｈｅｓｉｚｅｓ　ｎｅｗ　ａｄｄｉｔｉｏｎａｌ　ｓａｍｐｌｅｓ　ｆｏｒ　ｍｉｎｏｒｉｔｙ　ｃｌａｓｓｅｓ　ｂｙ　ｔｈｅ　Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅ１．Ｃｏｍｐａｒｉｎｇ　ｗｉｔｈ　ｓｅｖｅｒａｌ　ｓｔａｔｅ—ｏｆ－ａｒｔ　ｒｅｌａｔｅｄ　ｍｅｔｈｏｄｓ　ｏｎ　ＵＣＩ　ｄａｔａｓｅｔｓ，ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｒｅｓｕｌｔｓ　ｄｅｍｏｎｓｔｒａｔｅ　ｔｈａｔ　ｔｈｅ　ｐｒｏｐｏｓｅｄ　ｏｖｅｒ—ｓａｍｐｌｉｎｇ　ａｌｇｏｒｉｔｈｍ　ｃａｎ　ｒｅｄｕｃｅ　ｔｈｅ　ｓｉｄｅ　ｅｆｆｅｃｔ　ｏｆ　ｔｈｅ　ｃｌａｓｓ　ｉｍｂａｌａｎｃｅ　ａｎｄ　ｈｅｌｐ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｃｌａｓｓｉｉｃａｔｉｏｎ　ｐｅｒｆｆｏｒｍａｎｃｅ．　Ｋｅｙｗｏｒｄｓ：Ｉｍｂａｌａｎｃｅ　ｌｅａｒｎｉｎｇ；Ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ；Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ；Ｏｖｅｒ—ｓａｍｐｌｅ　在很多分类问题中，数据集往往是很不平衡的，　一都预测为多数类，这种情况下少数类都被错分。此　外，类别不平衡也与代价敏感学习紧密相关。对于一　些问题，错分少数类的代价往往高于错分多数类。　目前，不平衡学习的研究已经取得了相当大的　进展　Ｊ。目前的解决方法大致可分为３类：基于采　样的方法　、基于学习的方法（如敏感学习　）和　结合采样和学习的方法　。在上述３种方法中，基　些类的样本数目远远高于其他类，这就形成了不　平衡学习问题。许多传统的机器学习和数据挖掘算　法假设目标类具有相似的先验概率，但是许多现实　应用都严重违背了这种假设，如网络入侵检测、欺诈　检测、文本分类、风险管理和医学诊断等。从现实应　用的角度看，不平衡问题主要体现在两个方面：数据　本身的不平衡和外部因素导致的不平衡　。　类别不平衡严重影响分类器的预测性能。传统　的机器学习方法没有考虑到类别不平衡的问题，易于　产生偏向并忽略少数类样本，导致少数类样本被错　分　。例如，在一个多数类和少数类比例为９９的问　于采样的方法是最基本的策略，如下采样　和上采　样　６　Ｊ。采样方法通过改变样本的数量和分布来平　衡不同类的样本，这种方法对于不平衡学习问题往　往有较好的效果。上采样对于不平衡学习问题是一　种较有效的方法。这种方法利用原始的少数类样本　题中，学习算法为了最小化错误率可能将所有的样本　收稿日期：２０１６—１０—１９；修回日期：２０１６—１２－００．　基金项目：国家自然科学基金（６１３７３０６２，６１３７１０４０）．　来合成新的少数类样本，从而增加少数类样本数目，　通信作者：沈乐阳，男，硕士研究生，研究方向：模式识别与生物信息学；Ｅ—ｍａｉｌ　第２期　沈乐阳，等：高斯混合模型的上采样分析　８５　平衡样本分布。但是上采样方法的主要问题有两　个：一方面，上采样扩大了训练集，导致训练和预测　的耗时增加；另一方面，上采样仅仅是复制原始少数　类样本，这导致了某些样本的重复，可能会出现过拟　合的问题。　本文使用上采样方法解决类别不平衡的二分类　问题。目前，很多上采样方法已经被提出，如随机上　采样（ｒａｎｄｏｍ　ｏｖｅｒ．ｓａｍｐｌｅ，ＲＯＳ）、合成少数类上采样　技术（ｓｙｎｔｈｅｔｉｃ　ｍｉｎｏｒｉｔｙ　ｏｖｅｒ—ｓａｍｐｌｉｎｇ，ＳＭＯＴＥ）。。　、　自适应合成采样（ａｄａｐｔｉｖｅ　ｓｙｎｔｈｅｔｉｃ　ｓａｍｐｌｉｎｇ，　ＡＤＡＳＹＮ）　和严格合成少数类上采样技术（ｃｒｉｔｉｃａｌ　ＳＭＯＴＥ，ＣＳＭＯＴＥ）　ｊ。本文提出一种基于高斯混　合模型的上采样方法来生成新的少数类样本。高斯　模型被广泛用于分类或表示数据。因此，本文使用　高斯模型来模拟少数类样本的分布，在此基础上合　成新的少数类样本。　１　方法　１．１高斯混合模型　高斯混合模型（ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ，ＧＭＭ）　是单高斯模型的延伸，能够较好地描述数据的密度　分布。ＧＭＭ假设所有的数据点都是由有限个高斯　分布生成的，通常作为概率分布的参数模型使用。　对于基于ＧＭＭ的分类系统，模型训练的主要目的　就是估计参数使得高斯混合分布能够较好地匹配训　练集中特征向量的分布。ＧＭＭ的参数主要是在先　验模型的基础上使用最大期望算法（ｅｘｐｅｃｔａｔｉｏｎ　ｍａｘｉｍｉｚａｔｉｏｎ，ＥＭ）进行估计　Ｊ。ＧＭＭ可以认为是　个单一高斯概率密度函数的加权平均，其概率密　度分布函数为　Ｍ　Ｐ（　）＝∑竹　Ⅳ（　Ｉ　，∑　）．　式中：　为服从高斯混合分布的随机变量；Ｍ为高　斯分量的数目；竹　为第ｉ个高斯分量的权重；Ⅳ（　Ｉ　ｉ，∑　）为第ｉ个高斯分量的概率密度函数；　、∑　分别为第ｉ个高斯分量的均值和方差。　１．２主成分分析和核主成分分析　主成分分析（ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ，ＰＣＡ）　是常用的线性降维方法，能够有效地从高维数据中　提取重要信息　Ｊ。ＰＣＡ通过线性投影将高维数据　映射到低维空间中表示，并期望在所投影的维度上　的数据方差最大。ＰＣＡ追求在降维后最大化保持　数据的内在信息，通过在投影方向上的数据方差衡　量该方向的重要性。ＰＣＡ最初被用来分析多元数　据，但现在已经被广泛应用到其他方面，如去噪信　号、盲源分离和数据压缩等。　核主成分分析（ｋｅｒｎｅｌ　ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ，ＫＰＣＡ）　。。是主成分分析的非线性扩展。　ＰＣＡ从高维空间到低维空间的映射是线性的，对于　非线性映射往往无能为力。ＫＰＣＡ通过使用核技巧　来实现非线性的降维，被广泛使用于多种领域，如去　噪、压缩和结构预测等。　１．３支持向量机　支持向量机（ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ，ＳＶＭ）已被　广泛用于多种领域　。本文选择使用支持向量机　作为基本的学习模型来评估所提出方法的有效性。　下面简单介绍支持向量机的基本思想。　给定样本集｛（　，Ｙ　）｝　。，其中　∈Ｒ　，Ｙ∈　｛＋１，一１｝，它们分别是第ｉ个样本的特征向量和相　对应的标签，而＋１和一１分别代表正类和负类的标签。　ＳＶＭ寻找满足分类要求并拥有最大间隔的划　１　分超平面，即寻找最小化÷ｌ　ｌＷ　ｌ　１并满足如下约束　的参数Ｗ和ｂ：　Ｙ　・（Ｗ　・　＋ｂ）≥１，　１，２，．．．，Ⅳ．　式中：Ｗ为超平面的法向量，『　ｌＷ『Ｉ　是ｗ的欧几里　得范数。　本文使用ＬＩＢＳＶＭ¨　工具构建模型，并选择被　广泛使用的高斯核函数Ｋ（ｘ　，Ｙ　）＝ｅ—Ｉ　ＩｉＩ　作为　核函数。本文采用ＬＩＢＳＶＭ软件中基于交叉验证的　网格搜索策略优化正则参数和核参数。ＬＩＢＳＶＭ的　最新下载地址为ｈｔｔｐｓ：／／ｗｗｗ．ｃｓｉｅ．ｎｔｕ．ｅｄｕ．ｔｗ／～　ｃｊｌｉｎ／ｌｉｂｓｖｍ／。　１．４　Ｔｏｍｅｋ　ｌｉｎｋｓ　如果两个属于不同类别的样本点都是彼此的最　近邻，那么他们就构成了一个Ｔｏｍｅｋ　ｌｉｎｋ　Ｌｌ　。记点　对（　，　）的距离为ｄ（ｘ　，Ｘｊ），其中　∈Ｓ　ｉ　，ｘｊ∈　Ｓ　。如果不存在点　使得ｄ（　，　）＜ｄ（ｘ　，　）或　ｄ（　，　）＜ｄ（ｘ　，　），那么点对（　，　ｆ）就是一个　Ｔｏｍｅｋ　ｌｉｎｋ。如果点对属于Ｔｏｍｅｋ　ｌｉｎｋ，则该点对属　于噪声或边界点。因此，本文利用Ｔｏｍｅｋ　ｌｉｎｋｓ方法　来清洗采样后类间的数据交叠，建立类簇分布良好　的训练集，以此提高分类性能。　１．５提出的方法　上采样方法的关键问题是如何生成有效的新的　样本。高斯混合模型基于多变量正态分布，假设数　据集是多个混合在一起的多元高斯分布，从而用极　大似然估计的思想来将数据聚类，达到描述数据分　布的目的。尽管高斯混合模型常用于聚类，但其有　效地描述了数据的密度分布。此外，在实际应用中　高斯混合模型的使用十分广泛，高斯分布很常见，　生　物　信　息　学　第１５卷　很少出现不符合其假设的应用场景。因此，本文　利用该思想，单独对少数类的样本进行聚类，从而　得到少数类样本的数据分布。在此基础上，利用　得到的模型随机生成新的少数类样本，达到采样　的目的。　在整个采样算法中有两个需要注意的问题。首　先，在利用高斯混合模型对少数类样本的分布进行　模拟之前，需要对样本数据有一定的了解。虽然高　斯混合模型并不假设数据集到底是由多少个多元高　斯分布叠加而成的，但是如果能够知道这个信息，算　法能够更快速准确地学习到数据的结构。总之，能　够利用的信息越多，算法的效果就会越好。因此，在　使用高斯混合模型对少数类样本进行模拟前应充分　了解数据的特性。其次是采样比例的问题。本文采　样并不需要达到绝对的平衡。对于不平衡比例较大　的数据集，如果采样比例过大，同样会造成分类器性　能的降低。因此，对于不同类别比例的数据集，需要　采样的数目也不一样。在本文中，使用增长比例来　衡量采样的数目。记原始数据集多数类样本与少数　类样本的比例为　，上采样后多数类样本与少数类　样本的比例为　，则增长比例为　。此外，在最　后的筛选环节仍然会剔除一些样本，因此需要稍微　增加增长比例。在本文的实验中，一般将增长比例　设为２。　记训练集为Ｓ＝Ｓ　ｉ　ｕ　Ｓ　，其中，Ｓ　ｉ　、ｓ　分　别为少数类的样本集和多数类的样本集。本文提出　的方法主要是通过上采样合成新的少数类样本来获　得一个相对平衡的训练集，记为ｓ…。记Ｏ／为采样　系数，控制生成样本的数目。　为置信度，决定生成　样本是否可信。　本文提出方法的主要流程如下。　步骤１　利用高斯混合模型对少数类样本ｓ　ｉ　进行建模，得到模型Ｇｍ。　。生成的模型用于接下　来合成样本。　Ｇ　。ｄｅｌ　Ｍｏｄｅｌ（Ｓ　ｉ　）．　步骤２记少数类样本的数目为Ⅳ　利用高　斯混合模型随机生成新的少数类样本，记采样得到　的样本集为　．ｓ　ｎｌｅ　Ｓａｍｐｌｅ（Ｇｍ。ｄｅｌ，Ｏ／‘Ｎｍｉ　）．　步骤３经过上述的采样本文得到了新的少数　类样本，但由于上采样经常会引人数据交叠的问题，　因此必须对训练集进行清洗。本文选择Ｔｏｍｅｋ　ｌｉｎｋｓ技术进行清洗，去除由采样引入的数据交叠为　Ｊｓ　。　Ｔｏｍｅｋｌｉｎｋｓ（Ｓ，Ｓ　。ｌ　）．　１．６评价指标　在处理类别不平衡问题时，衡量性能的指标也　有所不同。本文中，使用查准率（ｐｒｅｃｉｓｉｏｎ）、查全率　（ｒｅｃａｌ１）、Ｆ—Ｍｅａｓｕｒｅ和Ｇ—ｍｅａｎ来综合衡量分类器的　性能，定义如下：　Ｔ、　．　．ＴＰ　∞　ｍｎ　，　ａｕ＝　，　，一Ｍ。　ｕ　。：　‘．　’Ｒｅｃａｌｌ＋Ｐｒｅｃｉｓｉｏｎ　Ｇ一—ｍ锄　√　厂１　———１　—　×　‘　式中：　为衡量查准率对查全率相对重要性的系数，　通常为１；ＴＰ（ｔｒｕｅ　ｐｏｓｉｔｉｖｅ）、ＦＰ（ｆａｌｓｅ　ｐｏｓｉｔｉｖｅ）、ＴＮ　（ｔｒｕｅ　ｎｅｇａｔｉｖｅ）和ＦＮ（ｆａｌｓｅ　ｎｅｇａｔｉｖｅ）分别为正确预　测为正类的数目、错误预测为正类的数目、正确预测　为负类的数目和错误预测为负类的个数，其性能可　用混淆矩阵（ｃｏｎｆｕｓｉｏｎ　ｍａｔｉｒｘ）来表示，如图１所示。　预测结果　正类　负类　ＴＰ　ＦＮ　止　妻类　（ｔｒｕｅ　ｐｏｓｉｔｉｖｅ）　（ｆａｌｓｅ　ｎｅｇａｔｉｖｅ）　情　况负　ＦＰ　ＴＮ　类　（ｆａｌｓｅ　ｐｏｓｉｉｔｖｅ）　（ｔｒｕｅ　ｎｅｇａｔｉｖｅ）　图１混淆矩阵　Ｆｉｇ．１　Ｃｏｎｆｕｓｉｔｏｎ　ｍａｔｒｉｘ　但是上述指标都是基于阈值的，选取不同的阈　值可以得到不同的结果。因此本文还使用了另外一　种评价指标ＡＵＣ（ａｒｅａ　ｕｎｄｅｒ　ｒｏｃ　ｃｕｒｖｅ），即ＲＯＣ　（ｒｅｃｅｉｖｅｒ　ｏｐｅｒａｔｉｎｇ　ｃｈａｒａｃｔｅｒｉｓｔｉｃ）曲线下的面积。与　上述４种指标不同，ＡＵＣ是与阈值无关的且与分类　器的性能成正比，因此本文选择ＡＵＣ来衡量分类器　的总体预测性能。　２结果与分析　２．１采样前后特征值比较　为了进一步了解本文使用的采样方法，采用　ＫＰＣＡ方法对采样前后的数据进行主成分分析。为　了更好地展现实验结果，本文使用二维数据进行实　验。在该实验中，使用了ｂａｎａｎａ数据集、同心圆数　据集和３个高斯分布构成的数据集进行实验。本文　分别对采样前后的数据进行ＫＰＣＡ主成分分解，并　第２期　沈乐阳，等：高斯混合模型的上采样分析　８７　根据不同的主成分画出等高线图。　在ｂａｎａｎａ数据集上的结果如图２所示，可以发　而第３个和第４个主成分分别将数据分成：４　部分和５部分，与采样后的情况基本一致。对于特　征值而言，采样前后基本不变，尤其是第１个主成　分，仅仅相差０．０２％。　现在图１中采样前第１个主成分很好地将数据分成　了两部分，第２个主成分将数据分成３部分，　５　Ｏ　一５　ｏ　．５　５　．１０　一ｌ０　图２　ｂａｎａｎａ数据集采样前后主成分对比　Ｆｉｇ．２　Ｃｏｍｐａｒｉｓｏｎｓ　ｏｆ　ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎ￣ｏｎ　ｂｅｆｏｒｅ－ｓａｍｐｌｉｎｇ　ａｎｄ　ａｆｔｅｒ－ｓａｍｐｉｎｇ　ｂａｎａｎａ　ｄａｔａｓｅｔ　在同心圆数据集上的实验结果如图３所示。本　文发现在同心圆上的结果不同于ｂａｎａｎａ数据集，在　采样前后主成分对数据的划分不是完全相同。第１　个主成分在采样前后都将数据划分成了两部分，并　且特征值也比较接近，两部分的中心分布也比较相　似。而在第２个和第３个在采样前将数据分别划分　为３部分和２部分。由此可以发现采样改变了数据　的分布，但是特征值还是比较接近的。第４个主成　分在采样前后都将数据划分成了４部分，各部分中　心的分布也比较相似，特征值变化也不是很大。总　体而言，采样前、后有的分布还是比较类似的，没有　发生比较大的变化。　为２部分和３部分，但是在采样后分别将数据划分　ｂｅｆｏｒｅ　ｓａｍｐｌｅ：ｖａｌ　０　０７２　５　０　１　２　３　４　Ｏ　１　２　３　４　０　１　２　３　４　ｌＯ　５　Ｏ　一５　图３同心圆数据集采样前后主成分对比　Ｆｉｇ．３　Ｃｏｍｐａｒｉｓｏｎｓ　ｏｆ　ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔｓ　ｏｎ　ｂｅｆｏｒｅ－ｓａｍｐｌｉｎｇ　ａｎｄ　ａｆｔｅｒ－ｓａｍｐｉｎｇ　ｃｉｒｃｌｅ　ｄａｔａｓｅｔｓ　在３个高斯分布合成的数据集上的实验结果　如图４所示。本文可以很明显地发现在４个主成　分上采样前后的分布基本相同，第１个和第２个主　值也很相近。而第３个和第４个主成分都将数据　划分成了４部分，但是中心位置的分布略有不同。　但是就采样前后的比较而言，两个主成分的结果基　本相同。　成分都将数据很好地划分成了３部分，并且特征　８８　生　物　信　息　学　ｂｅｆｏｒｅ　ｓａｍｐｌｅ：ｖａｌ＝０　０７２　７　第ｌ５卷　ｂｅｆｏｒｅ　ｓａｍｐｌｅ：ｖａｌ＝Ｏ．０６３　７　１２　ｌ０　８　６　４　ｌ２　ｌＯ　８　６　ｌ２　ｌ０　８　６　４　２　４　２　Ｏ　．２　０　．０　．２　２　２　图４　３个高斯分布合成的数据集采样前后主成分对比　Ｆｉｇ．４　Ｃｏｍｐａｒｉｓｏｎｓ　ｏｆ　ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔｓ　ｏｎ　ｂｅｆｏｒｅ・ｓａｍｐｌｉｎｇ　ａｎｄ　ａｆｔｅｒ—ｓａｍｐｉｎｇ　ｇａｕｓｓｉａｎ　ｄａｔａｓｅｔｓ　２．２　ＵＣＩ数据集上的实验结果　ｓ方法。而从多数类和少数类的比例角度来看，　ＧＯＳ方法在比例较低和较高的情况下的ＡＵＣ值往　往较高，而在比例值为１４．３Ｏ的Ｙｅａｓｔ１ｖｓ７数据集上　的表现较差。　表２　ＳＶＭ、ＣＳＭＯＴＥ、ＲＵＳＢｏｏｓｔ和ＨＥ—Ｓ方法在ＡＵＣ值　上的比较　Ｔａｂｌｅ　２　ＡＵＣ　ｃｏｍｐａｒｉｓｏｎｓ　ｂｅｔｗｅｅｎ　ＳＶＭ．ＣＳＭＯＴＥ。　ＲＵＳＢｏｏｓｔ　ａｎｄ　ＨＥＳ　ｆｏｒ　ｓｅｒｖｅｒａｌ　ｄａｔａｓｅｔｓ　为了验证本文所提出的方法，使用ＵＣＩ（ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　ｃａｌｉｆｏｒｎｉａ，ｉｒｖｉｎｅ）机器学习库中的一些不平衡数　据集来进行实验　，数据集及其特性见表１。　２　０　８　６　４　２　Ｏ　２　２　Ｏ　８　６　４　２　Ｏ　２　表１数据集描述　Ｔａｂｌｅ　１　Ｓｕｍｍａｒｙ　ｄｅｓｃｒｉｐｔｉｏｎ　ｏｆ　ｄａｔａｓｅｔｓ　本文将比较几种针对不平衡数据集的方法在上　述数据集上的性能，包括ＳＶＭ方法、ＣＳＭＯＴＥ方法、　随机下采样集成方法（ＲＵＳＢｏｏｓｔ）¨　、　ＨａＭＥｎｓｅｍｂｌｅ（ＨＥ—Ｓ）　方法及所提出的ＧＯＳ方　法。ＲＵＳＢｏｏｓｔ结合采样和ｂｏｏｓｔｉｎｇ集成方法，是　ＳＭＯＴＥＢｏｏｓｔ　的变种方法。ＳＭＯＴＥＢｏｏｓｔ利用　ＳＭＯＴＥ合成少数类样本，而ＲＵＳＢｏｏｓｔ则使用了随　机下采样来实现样本的平衡。ＨａＭＥｎｓｅｍｂｌｅ方法　注：｛数据来自文献【５　Ｊ．　而不同方法在几种数据集上的Ｆ—Ｍｅａｓｕｒｅ值和　Ｇ—ｍｅａｎ值的比较结果见表３、４。本文发现ＧＯＳ方　法的Ｆ．Ｍｅａｓｕｒｅ值优于其他４种方法，尤其在　Ｙｅａｓｔ１ｖｓ７数据集上，其结果远远高于其他４种方　法。在几种数据集上，ＧＯＳ方法的Ｆ—Ｍｅａｓｕｒｅ值最　少比其他方法高１％。而对于Ｇ—ｍｅａｎ值而言，ＧＯＳ　方法在Ｅｃｏｌｉ３和Ｙｅａｓｔ１４５８ｖｓ７数据集上高于其他方　法，在Ｙｅａｓｔ１ｖｓ７数据集上仅仅低于ＣＳＭＯＴＥ方法。　而在Ｅｃｏｌｉ数据集中，ＧＯＳ方法的Ｇ．ｍｅａｎ值低于　ＲＵＳＢｏｏｓｔ和ＨＥ—Ｓ方法。总体而言，ＧＯＳ在不同平　衡比例的数据集上的Ｆ—Ｍｅａｓｕｒｅ值有很好的表现，　高于其他４种方法，并且在ＡＵＣ值和Ｇ－ｍｅａｎ值上　也有不俗的表现。而从多数类和少数类的比例角度　来看，ＧＯＳ方法在不同比例数据上都有较好的表　结合了上采样和下采样的方法来减少不同采样带来　的负面影响，从而提高分类的性能。　首先，本文考察ＡＵＣ指标，其结果见表２。在　Ｙｅａｓｔ１４５８ｖｓ７数据集上，ＧＯＳ的ＡＵＣ值高于其他４　种方法，但在Ｙｅａｓｔ１ｖｓ７数据集上，ＧＯＳ的ＡＵＣ值远　远低于其他方法。在其他３种数据集中，ＧＯＳ的　ＡＵＣ值略优由于ＣＳＭＯＴＥ，但稍稍低于ＳＶＭ和ＨＥ—　第２期　沈乐阳，等：高斯混合模型的上采样分析　８９　现，尤其在比例较高的情况下，该方法的Ｆ－Ｍｅａｓｕｒｅ　值和Ｇ．ｍｅａｎ值远远高于其他方法。　表３　ＳＶＭ、ＣＳＭＯＴＥ、ＲＵＳＢｏｏｓｔ和ＨＥ—Ｓ方法在　Ｆ．Ｍｅａｓｕｒｅ值上的比较　Ｔａｂｌｅ　３　Ｆ－Ｍｅａｓｕｒｅ　ｃｏｍｐａｒｉｓｏｎｓ　ｂｅｔｗｅｅｎ　ＳＶＭ，ＣＳＭＯＴＥ，　ＲＵＳＢｏｏｓｔ　ａｎｄ　ＨＥ—Ｓ　ｆｏｒ　ｓｅｒｖｅｒａｌ　ｄａｔａｓｅｔｓ　注：　数据来自文献［５］　表４　ＳＶＭ、ＣＳＭＯＴＥ、ＲＵＳＢｏｏｓｔ和ＨＥ—Ｓ方法在Ｇ－ｍｅａｎ　值上的比较　Ｔａｂｌｅ　４　Ｇ—ｍｅａｎ　ｃｏｍｐａｒｉｓｏｎｓ　ｂｅｔｗｅｅｎ　ＳＶＭ。ＣＳＭＯＴＥ，　ＲＵＳＢｏｏｓｔ　ａｎｄ　ＨＥ—Ｓ　ｆｏｒ　ｓｅｒｖｅｒａｌ　ｄａｔａｓｅｔｓ　注：　数据来自文献［５］　３结语　本文中，对一个新的上采样方法进行了研究，该　方法基于高斯混合模型合成新的少数类样本，在此　基础上使用Ｔｏｍｅｋ　ｌｉｎｋｓ技术对新生成的样本进行　筛选，最终得到相对平衡的训练集样本。在ＵＣＩ不　平衡数据集上对ＧＯＳ方法进行实验，并和其他预测　方法相比较。实验结果表明，该方法有助于缓解类　不平衡，并提升分类的准确性。　参考文献（Ｒｅｆｅｒｅｎｃｅｓ）　［１］ｃＨＡＷＬＡ　Ｎ　Ｖ，ＪＡＰＫＯＷＩＣＺ　Ｎ，ＫＯＴＣＺ　Ａ．Ｅｄｉｔｏｒｉｌａ：　ｓｐｅｃｉａｌ　ｉｓｓｕｅ　ｏｎ　ｌｅａｒｎｉｎｇ　ｆｒｏｍ　ｉｍｂａｌａｎｃｅｄ　ｄａｔａ　ｓｅｔｓ［Ｊ］．　ＡＣＭ　Ｓｉｇｋｄｄ　Ｅｘｐｌｏｒａｔｉｏｎｓ　Ｎｅｗｓｌｅｔｔｅｒ，２００４，６（１）：１—６．　ＤＯＩ：１０．１　１４５／１００７７３０．１００７７３３．　［２］ＨＥ　Ｈａｉｂｏ，ＧＡＲＣＩＡ　Ｅ　Ａ．Ｌｅａｒｎｉｎｇ　ｆｒｏｍ　ｉｍｂａｌａｎｃｅｄ　ｄａｔａ　［Ｊ］．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｄａｔａ　Ｅｎｇｉｎｅｅ－　ｒｉｎｇ，２００９，２１（９）：１２６３—１２８４．ＤＯＩ：１０．１１０９／ＴＫＤＥ．　２ｏｏ８．２３９．　［３］ＥＳＴＡＢＲＯＯＫＳ　Ａ，ＪＯ　Ｔ，ＪＡＰＫＯＷＩＣＺ　Ｎ．Ａ　ｍｕｈｉｐｌｅ　ｒｅｓａ—　ｍｐｌｉｎｇ　ｍｅｔｈｏｄ　ｆｏｒ　ｌｅａｒｎｉｎｇ　ｆｒｏｍ　Ｉｍｂａｌａｎｃｅｄ　ｄａｔａ　ｓｅｔｓ［Ｊ］．　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２００４，２０（１）：１８—３６．ＤＯＩ：　１０．１１１ｌ／ｊ．０８２４—７９３５．２００４．ｔ０１—１—００２２８．ｘ．　［４］ＺＨＯＵ　Ｚｈｉｈｕａ，ＬＩＵ　Ｘｕｙｉｎｇ．Ｏｎ　ｍｕｌｔｉ—ｃｌａｓｓ　ｃｏｓｔ．ｓｅｎｓｉｔｉｖｅ　ｌｅａｒｎｉｎｇ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２０１０，２６（３）：　２３２—２５７．ＤＯＩ：１０．１１　１　１／ｊ．１４６７－８６４０．２０１０．００３５８．ｘ．　［５］ＮＡＮＮＩ　Ｌ，ＦＡＮＴＯＺＺＩ　Ｃ，ＬＡＺＺＡＲＩＮＩ　Ｎ．Ｃｏｕｐｌｉｎｇ　ｄｉｆｆｅ—　ｒｅｎｔ　ｍｅｔｈｏｄｓ　ｆｏｒ　ｏｖｅｒｃｏｍｉｎｇ　ｔｈｅ　ｃｌａｓｓ　ｉｍｂａｌａｎｃｅ　ｐｒｏｂｌｅｍ　［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１５，１５８：４８—６１．ＤＯＩ：１０．１０１６／　ｊ．ｎｅｕｃｏｍ．２０１５．０１．０６８．　『６］ＣＨＡＷＬＡ　Ｎ　Ｖ，Ｂ０ｗＹＥＲ　Ｋ　ｗ，ＨＡＬＬ　Ｌ　０，ｅｔ　ａ１．　ＳＭＯＴＥ：ｓｙｎｔｈｅｔｉｃ　ｍｉｎｏｒｉｔｙ　ｏｖｅｒ－ｓａｍｐｌｉｎｇ　ｔｅｃｈｎｉｑｕｅ［Ｊ］．　Ｊｏｕｒｎａｌ　ｏｆ　Ａｒｔｉｉｆｃｉａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ　Ｒｅｓｅａｒｃｈ，２００２，１６（１）：　３２１—３５７．ＤＯＩ：１０．１６１３／ｊａｉｒ．９５３．　［７］ＨＥ　Ｈａｉｂｏ，ＢＡＩ　Ｙａｎｇ，ＧＡＲＣＩＡ　Ｅ　Ａ，ｅｔ　ａ１．ＡＤＡＳＹＮ：　Ａｄａｐｔｉｖｅ　ｓｙｎｔｈｅｔｉｃ　ｓａｍｐｌｉｎｇ　ａｐｐｒｏａｃｈ　ｆｏｒ　ｉｍｂａｌａｎｃｅｄ　ｌｅａｒｎ・　ｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　２００８　ＩＥＥＥ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｊｏｉｎｔ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋｓ（ＩＥＥＥ　Ｗｏｒｌｄ　Ｃｏｎｇｒｅｓｓ　ｏｎ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｉｎｔｅｌｌｉｇｅｎｃｅ）．ＨｏｎｇＫａｎｇ：ＩＥＥＥ，２００８：　１３２２—１３２８．ＤＯＩ：１０．１　１０９／ＨＣＮＮ．２００８．４６３３９６９．　［８］ＵＬＵＫＡＹＡ　Ｓ，ＥＲＤＥＭ　Ｃ　Ｅ．Ｇａｕｓｓｉａｎ　ｍｉｘｔｕｒｅ　ｍｏｄｅｌ　ｂａｓｅｄ　ｅｓｔｉｍａｔｉｏｎ　ｏｆ　ｔｈｅ　ｎｅｕｔｒａｌ　ｆａｃｅ　ｓｈａｐｅ　ｆｏｒ　ｅｍｏｔｉｏｎ　ｒｅｃｏｇｎｉｔｉｏｎ　［Ｊ］．Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ，２０１４，３２：１１—２３．ＤＯＩ：　１０．１０１６／ｊ．ｄｓｐ．２０１４．０５．０１３．　［９］周志华．机器学习［Ｍ］．北京：清华大学出版社，２０１６．　２２９－２３２．　ＺＨＯＵ　Ｚｈｉｈｕａ．Ｍａｃｈｉｎｅ　ｌｅａｒｎｉｎｇ［Ｍ］．Ｂｅｉｊｉｎｇ：Ｔｓｉｎｇｈｕａ　Ｕｎｉｖｅｒｓｉｔｙ　Ｐｒｅｓｓ，２０１６：２２９—２３２．　［１０］ＬＩ　Ｊｕｎｂａｏ，ＧＡＯ　Ｈｕｉｊｕｎ．Ｓｐａｒｓｅ　ｄａｔａ—ｄｅｐｅｎｄｅｎｔ　ｋｅｒｎｅｌ　ｐｒｉｎｃｉｐａｌ　ｃｏｍｐｏｎｅｎｔ　ａｎａｌｙｓｉｓ　ｂａｓｅｄ　ｏｎ　ｌｅａｓｔ　ｓｑｕａｒｅｓ　ｓｕｐ—　ｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　ｆｏｒ　ｆｅａｔｕｒｅ　ｅｘｔｒａｃｔｉｏｎ　ａｎｄ　ｒｅｃｏｇｎｉｔｉｏｎ　［Ｊ］．Ｎｅｕｒａｌ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ａｐｐｌｉｃａｔｉｏｎｓ，２０１２，２１（８）：　１９７１－１９８０．ＤＯＩ：１０．１００７／ｓ００５２１—０１１一Ｏ６００一ｚ．　［１１］ＤＩＯＳＡＮ　Ｌ，ＲＯＧＯＺＡＮ　Ａ，ＰＥＣＵＣＨＥＴ　Ｊ　Ｐ．Ｉｍｐｒｏｖｉｎｇ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｐｅｒｆｏｒｍａｎｃｅ　ｏｆ　ｓｕｐｐｏｒｔ　ｖｅｃｔｏｒ　ｍａｃｈｉｎｅ　ｂｙ　ｇｅ—　ｎｅｔｉｅａｌｌｙ　ｏｐｔｉｍｉｓｉｎｇ　ｋｅｒｎｅｌ　ｓｈａｐｅ　ａｎｄ　ｈｙｐｅｒ—ｐａｒａｍｅｔｅｒｓ　［Ｊ］．Ａｐｐｌｉｅｄ　Ｉｎｔｅｌｌｉｇｅｎｃｅ，２０１２，３６（２）：２８０—２９４．ＤＯＩ：　１０．１００７／ｓｌ０４８９—０１０—０２６０－１．　［１２］ＣＨＡＮＧ　Ｃ　Ｃ，ＬＩＮ　Ｃ　Ｊ．ＬＩＢＳＶＭ：ａ　ｌｉｂｒａｒｙ　ｏｆｒ　ｓｕｐｐｏｔｒ　ｖｅｃ—　ｔｏｒ　ｍａｃｈｉｎｅｓ　　ｌＪ　１．ＡＣＭ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｉｎｔｅｌｌｉｇｅｎｔ　Ｓｙｓｔｅｍｓ　ｎａｄ　Ｔｅｃｈｎｏｌｏｇｙ（ＴＩＳＴ），２０１１，２（３）：２７．ＤＯＩ：１０．　１１４５／１９６１１８９．１９６１１９９．　［１３］ＺＨＡＮＧ　Ｊｉｎｇ，ＣＡＯ　Ｐｅｎｇ，ＧＲＯＳＳ　Ｄ　Ｐ，ｅｔ　ａ１．Ｏｎ　ｔｈｅ　ａｐ—　ｐｌｉｃａｔｉｏｎ　ｏｆ　ｍｕｌｔｉ－ｃｌａｓｓ　ｃｌａｓｓｉｉｆｃａｔｉｏｎ　ｉｎ　ｐｈｙｓｉｃａｌ　ｔｈｅｒａｐｙ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ［Ｊ］．Ｈｅａｌｔｈ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｓｙｓｔｅｍｓ，２０１３，１（１）：１５．ＤＯＩ：１０．１１８６／２０４７—２５０１—　１—１５．　［１４］ＳＥＩＦＦＥＲＴ　Ｃ，ＫＨＯＳＨＧＯＦＩ＇ＡＡＲ　Ｔ　Ｍ，ＨＵＬＳＥ　Ｊ　Ｖ，ｅｔ　１ａ．ＲＵＳＢｏｏｓｔ：Ａ　ｈｙｂｒｉｄ　ａｐｐｒｏａｃｈ　ｔｏ　ａｌｌｅｖｉａｔｉｎｇ　ｃｌａｓｓ　ｉｍ—　ｂａｌａｎｃｅ［Ｊ］．ＩＥＥＥ　Ｔｒｎａｓａｃｔｉｏｎｓ　ｏｎ　Ｓｙｓｔｅｍｓ，Ｍａｎ，ａｎｄ　Ｃｙ—　ｂｅｒｎｅｔｉｃｓ—Ｐａｒｔ　Ａ：Ｓｙｓｔｅｍｓ　ａｎｄ　Ｈｕｍａｎｓ，２０１０，４０（１）：　１８５－１９７．ＤＯＩ：１０．１　１０９／ＴＳＭＣＡ．２００９．２０２９５５９．　［１５］ＣＨＡＷＬＡ　Ｎ　Ｖ，ＬＡＺＡＲＥＶＩＣ　Ａ，ＨＡＬＬ　Ｌ　０，ｅｔ　ａ１．　ＳＭＯＴＥＢｏｏｓｔ：Ｉｍｐｒｏｖｉｎｇ　ｐｒｅｄｉｃｔｉｏｎ　ｏｆ　ｔｈｅ　ｍｉｎｏｒｉｔｙ　ｃｌｓａｓ　ｉｎ　ｂｏｏｓｔｉｎｇ［Ｃ］／／Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｐｒｉｎｃｉｐｌｅｓ　ｏｆ　Ｄａｔａ　Ｍｉｎｉｎｇ　ａｎｄ　Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００３：　１０７－１１９．ＤＯＩ：１Ｏ．１００７／９７８－３—５４Ｏ一３９８０４—２　１２．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

高斯混合模型的上采样分析