您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据偏斜 >

章基于概率主题模型的数据倾斜文本分类集成方法通过将多个弱分类

发布时间:2019-06-03 22:29 来源:未知 编辑:admin

  章基于概率主题模型的数据倾斜文本分类集成方法通过将多个弱分类器综合成一个强分类器 以提高分类性能 这是 解决数据偏斜问题的另一种思路。推进技术 是较为常见的一种分类器集 成方法 其本质是改变样本分布 提高错误样本概率 使下一次的弱学习机能够 集中精力针对那些困难样本。 是使用推进技术的 一种经典方法

  章基于概率主题模型的数据倾斜文本分类集成方法通过将多个弱分类器综合成一个强分类器 以提高分类性能 这是 解决数据偏斜问题的另一种思路。推进技术 是较为常见的一种分类器集 成方法 其本质是改变样本分布 提高错误样本概率 使下一次的弱学习机能够 集中精力针对那些困难样本。 是使用推进技术的 一种经典方法 经过 次迭代 每次迭代后 对分类错误的样本加大权重 使得 下一次的迭代更加关注这些样本。每次迭代得到一个弱分类器 最终的强分类器 是这些弱分类器的线性组合。具体过程如下 输入 下训练得到弱分类器 其中乙是归一化因子。输出 由于推进技术简单有效许多学者提出了各种针对数据偏斜问题的推进技 例如就是在 算法的权重调整策略当中加入了错误分类代 价。其他利用推进技术的方法还有 以及 等等。 不少学者把主动学习方法 应用到数据偏斜问题上面并取得了 不错的进展。通过选择那些能够提供较多信息量的样本作为训练数据 主动学习 确实能够有效地缓解数据偏斜所带来的问题。 提出一种基于支持向 量机的主动学习方法 他们认为只要训练集包含支持向量机的那些支持向量 得到与整个数据集一样的分类器。因此在每次迭代过程中 从当前训练集以外 的数据集中选择距离当前分类器超平面最近的样本加入到训练集里面 然后重新 训练分类器。 在此基础上进行了改进 每次迭代不用到整个数据集 里面搜索离超平面最近的样本 而只需要查询一个较小的数据池 这个特点使得 该方法应用到大规模数据集时不需要很高的计算开销。作者声称这种主动学习方 法既不会像欠采样技术那样冒丢失有用信息的风险也不会像过采样技术那样加 章基于概率主题模型的数据倾斜文本分类重分类器学习过程的负担 因此能够在不牺牲分类性能的前提下 减少分类器的 学习时间。 等人 从概念复杂程度的角度出发 提出了 方法。他们认为大类包含的复杂概念极大的降低了分类器的效果 通过把大类划分为若干个只包含简单概念的小类 可以提高分类器特别是线性分 类器的性能。具体过程如下 在训练分类器之前 先通过聚类算法把每个大类分 解成若干个小簇 把每个小簇作为一个新的类别代替大类参与分类器的学习。当 分类器对测试样本进行分类时 若得到的类别是原来就有的类别 则直接返回该 类别 否则 根据聚类阶段大类与分解成的小类的映射关系重新还原为大类 返回该大类标签。除了上述的方法以外 还有很多有效的分类方法 算法、单类学习 等等。基于分类算法的技术不改变 样本的分布 其基本思想是让分类器更加重视小类 对小类的样本更加敏感。当 训练集的小类样本不能反映其真实分布时 这类方法容易出现过学习问题。 基于特征选择的技术 除了上述两类方法外 特征选择是处理数据偏斜问题的另一个方向。通过改 进特征选择方法 选择那些更有利用把小类样本同大类样本分开来的特征集 出发点同样是为了降低样本空间的概念复杂程度。如图所示 是一个包含 两个类样本的三维空间 可以看出 要直接在这个空间中把这两个类别的样本分 开来比较困难 如果通过适当的特征选择 得到二维空间 则可以看到这两 个类的样本之间区别比较明显。 通过特征选择降低概念复杂度一般说来 当样本维数很高的时候 数据偏斜带来的影响更严重。而在很多 应用场合下分类方法都是用来处理高维数据的。例如 在基于微阵列的癌症分类 维数通常都达到以上 在文本分类中 样本的维数更是远远大于训练集 章基于概率主题模型的数据倾斜文本分类中的样本数目。对于高维的数据偏斜问题 基于数据采样和基于分类算法的技术 都不能得到理想的分类结果。 等人 认为在缓解过度拟合方面 特征选择比分类算法更加重要。即使是对于擅长处理高维数据的支持向量机来 也是如此。因此设计有效的特征选择方法对于数据偏斜特别是高维数据偏斜分类问题是非常重要的。 正是基于这样的目的 不少学者都提出了基于特征选择的数据偏斜处理方 提出了一个多策略的方法多个分类器并行工作 每一个分类器使用结合遗传算法的特征选择方法得到适合自己的特征集合 最后 再进行综合处理。 认为 由于统计排序技术的特点 传统的基于特定统计 度量标准的特征选择方法容易偏向于那些占优势比例的大类。而他提出的基于遗 传算法的特征选择方法 综合考虑了不同的统计度量标准 避免了由于每个类别 样本数目不同所产生的影响 因此得到的特征集合对所有类都是公平的。 将目前流行的特征选择方法分为两大类 单面方法 双面方法。前者只考虑那些与类别正相关的特征 后者不但考虑了正相关的特征还同时考虑了负相关的特征。如果一个特征 某个类别正相关则含有特征 的样本属于该类别的可能性非常大 反相关特征 则是相反。 认为采用单面方法的特征选择忽略了对于分类非常有帮助的负 相关特征 而采用双面方法的特征选择则很难确定正相关特征和负相关特征的最 佳组合方式。进一步地 提出了一个显式综合正相关特征和负相关特征的 特征选择框架。实验表明 通过适当的参数设定 该框架能够给分类性能带来更 显著的提高。 针对偏斜数据集 提出一种基于 曲线下面积的特征选择 方法 。对于每一个特征 训练一个 简单的线性分类器 通过调整分类器的判别边界产生对应该特征的 曲线。 然后根据曲线下面积计算每个特征的相关性并根据相关性选择最优的特征集合。 在大量数据集上的实验结果表明 是另一种综合正相关和负相关特征的有 效方法。 研究趋势 尽管已经出现了大量与数据偏斜分类相关的研究工作并取得了不错的进展 数据偏斜分类问题并没有得到彻底的解决 因此还需要更进一步的研究工作。 虽然人们提出了很多处理数据偏斜的方法 这些方法或者减小类别之间的不平衡 或者降低数据集的概念复杂程度 极大地减轻了数据偏斜给分类结果带来的不良 影响 但都无法保证让分类器完全避免数据偏斜 的影响。要彻底解决数据偏斜问 必须从多方面同时考虑例如 等技术都是同 时从多个角度出发综合解决数据偏斜问题的例子。然而 如何有效地把各种方法 综合在一起 将是一个巨大的挑战。 另一方面 目前已有的方法在各种实际应用场合中的还很难取得与实验结果 相同的效果。因此 今后的研究工作将会与实际应用更加紧密结合 具体大致表 现为如下 个趋势 更加注重多分类问题 特别是类别数目较多的情况。现实中绝大多数应用 都是多类问题 在二分类问题有效的方法并不一定适合类别数目很多的情况 只有在多分类应用中适用的方法才具有更高的应用价值。 更加注重高维数据的情况。实际应用中经常遇到高维数据 当维数很大的 时候 往往会产生很多意想不到的问题 如过度拟合 ‟概念复杂程度加剧等。 面向特定应用领域。目前的方法大多是针对一般分类问题提出的 直接用 向量空间模型来表示样本。如果针对特定领域 利用其领域知识来改善分类 将会更好解决数据偏斜问题。例如在文本分类中 如果能利用文本的 语义信息 无论是降低概念复杂度 还是减小类别不平衡 都能带来显著的 效果。 基于 模型的偏斜文本分类算法 基本思路 目前解决数据不平衡问题的方法都是针对一般分类系统提出的 而在文本分 类领域 如果能利用文本所特有的语义特征来处理不平衡问题 则应该可以得到 比其它方法更好的效果。为此 我们想到了通过从文本集上抽取出对应的概率主 题模型 利用模型所反映的文本全局语义信息来提高数据偏斜下的文本分类效果。 概率主题模型生成文本集在经典的 模型当中 每个文本都有自己独立的主题分布 而在文本分 章基于概率主题模型的数据倾斜文本分类类任务中 我们假设同一类别的文本具有相同的主题分布。如图 所示 我们 可以把训练文本集的生成过程看成主题模型的一个生成过程 对于文本集中的每 一个类别 都有一个潜在的概率主题模型 该类别的所有文本都是由其对应的主 题模型按照自己的生成过程产生的。 因此 对于存在数据偏斜的文本集 我们可以通过对应的概率主题模型生成 稀有类别的样本 扩大稀有类别在整个文本集的比例 从而达到数据平衡的效果。 从本质上说 这种方法也是一种数据过采样的数据偏斜处理方法。但是它具有其 他数据采样方法无法具有的优点 传统的数据过采样方法要么精确复制稀有类别 的某些样本 要么根据稀有类别的局部若干个样本人工合成新样本。虽然扩大了 稀有类别在文本集中的比例 但在文本内容方面稀有类别仍然是贫乏的 而且容 易造成过度拟合问题 这也是传统数据过采样方法多数情况下没有达到预期效果 的原因之一。而数据欠采样方法一般只能应用到数据集规模比较大的情况 如果 数据集规模不够大 则可能因为删除了大类别的某些对分类器有极大价值的样本 反而降低了最终的分类效果。而我们提出的方法则是利用文本所特有的语义特征 来处理不平衡问题。概率主题模型实际上已经潜在地记录了对应类别的全局语义 信息 通过概率主题模型生成的文本其谈论的话题仍然属于该类别的范畴。但是 由于主题模型生成过程的特点 新生成的文本又与该类别已有文本具有一定的区 分度 保证了该类别文本内容的多样性。因此 我们的方法不但解决了传统过采 样方法不可避免的过度拟合问题 还在一定程度上扩大了稀有类别在文本空间上 的范围。 算法设计 假设文本训练集含有 个类别 。首先分别从这些子集当中通过抽样算法抽 取出对应的 概率主题模型 。我们把具有最多文本的类别的文本数目记为榭 。对于其他任何类别 通过其对应的概率主题模型生成 个新的文本其中 表示 原来的文本数目。这些新生成的文本与原 来的旧文本一起构成新的训练集 在新的训练集里面数据偏斜的影响受到了极大的减弱。具体过程如下 对于 利用 抽样算法得到对应的 模型 计算 中的平均文本长度 通过图 算法使用 模型 生成 个新样本 记为置 上构建分类器输出 实验及分析实验设置 主题模型生成新文本的算法我们采用支持向量机 作为实验的基础分类器 采样开源的 作为其代码实现。 参数设置如下 核函数使用线性核函数 方法交叉验证自动选择最优值其他参数使用 默认值。采用信息增益方法选择 个单词作为特征。 模型参数设置如下 主题数目 迭代次数 。为了进行比较 除了不进 章基于概率主题模型的数据倾斜文本分类行任何平衡处理直接用 分类 我们还实现了随机过采样、随机欠采样 等方法。每种方法运行次取平均值作为实验结果。如表 所示 等数据源选取了个具有不同 作为实验数据。反应了数据集中类别分布的 不平衡程度。一般说来 值越大 数据偏斜程度越严重。当各个类别规模一 实验数据集数据集样本数目类别数目最大类别最小类别 是我们的方法记为 同其他方法在两类数据集上基于 的分类结果比较。可以看出 在绝大多数数据集上都表现出良好的分类性能。当 值比较低的时候 随机欠采样的分类结果比随机过采样要好一点。例如 数据集的 欠采样方法的结果几乎和最好的结果——差不多。而当 值较高时 过采样方法明显优于欠采样。由于新样本的生成仅与局部少数的样本 有关 方法无法对分类结果有较大的改善。与 相比 方法的分类结果更加倾向于稀有类别 如表 所示。稀有类 类别 率得到了提高而查准率有所降低大类 类别 则情况相反。虽然对于单个类 来说 方法有时会降低查全率或查准率 但是每个类的 值都得 到了提升。此外 通过查全率或查准率的少量降低 能够换来另一个指标的巨大 提高。例如 数据集上类别的查全率从 提高到了 章基于概率主题模型的数据倾斜文本分类而对应的查准率只是供 降到 两类数据集上的宏微平均 结果比较 数据平衡方法数据集 两类数据集上各个类别的分类结果对比类别 类别 数据集方法 微平均结果对比 数据平衡方法数据集 在多类分类问题中随机欠采样方法得到的结果并不理想。 方法虽 然对分类结果改善的程度没有像在两类分类问题中那么大 但仍然能够得到比其 他方法更好的效果。比较而言 随机过采样方法在所有数据集上的表现也比较稳 过采样和方法则波动比较大。表 是各种方法在多类数据集上的 结果对比。表中的结果表明在多类分类任务中具有比其他方 法更好的鲁棒性。同时 为了提高稀有类的 并不需要牺牲其他类太 多的准确率。如图 所示 与随机过采样方法相比 方法能够提高更 多类别的分类效果。例如 采用 方法 数据集上大约 别准确率都得到了提高而随机过采样方法只提高了其中 的类别的分类准确 描述了改善表 的数据集里的各个类别分类结果的具体情 况。对于 数据集 类别 只有 个样本 这些稀有类的准确率得到了 章基于概率主题模型的数据倾斜文本分类大幅度的提高 而只有类别 的准确率出现轻微的下降。在 数据集里 相对 于类别 准确率的大幅提高 类别 的准确率下降幅度几乎可以忽略不计。 数据集的类别样本数目类别样本数目数据集 随机过采样和对所有类别分类结果的改善情况 数据集上的分类结果本章小结 数据偏斜在实际分类应用中经常遇到 是影响分类性能的重要因素之一 于数据偏斜的情况仅利用传统的分类方法并不能取得理想的效果。因此 数据 偏斜分类问题成了近年来数据挖掘领域的研究热点之一 同时数据偏斜分类方法 的研究具有极大的应用前景。 本章首先介绍了数据偏斜分类的研究现状 接着针对文本分类应用提出了基 概率主题模型的数据偏斜处理方法通过从文本集上抽取出对应的概率 章基于概率主题模型的数据倾斜文本分类主题模型 利用模型所反映的文本全局语义信息来提高数据偏斜下的文本分类效 果。这种方法不但解决了传统过采样方法不可避免的过度拟合问题 还在一定程 度上扩大了稀有类别在文本空间上的范围。在 数据集上面的实验结果表明该方法比其他数据偏斜处理方法更适用于文本分类 问题。

  硕士论文概率主题模型在文本分类中的应用研究硕士论文概

http://istighcomputing.com/shujupianxie/185.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有