您好、欢迎来到现金彩票网!
当前位置:秒速快3 > 数据偏斜 >

基于数据融合的组合特征提取方法的研究

发布时间:2019-06-19 00:51 来源:未知 编辑:admin

  基于数据融合的组合特征提取方法的研究_电子/电路_工程科技_专业资料。针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类.在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确

  计算机工程与设计Computer ?开发与应用? Engineering and Design 2009,30(1 o) 2529 基于数据融合的组合特征提取方法的研究 谈佳宁, 朱玉全, 陈 耿, 翟 国 (江苏大学计算机科学与通信工程学院,江苏镇江212013) 摘要:针对Web文本的特征提取方法多种多样,但均存在各自的不足且对数据集偏斜问题普遍没有很好的解决能力,针对 该问题采用BNS特征提取算法和Odds特征提取算法基于数据融合思想进行Web文本特征提取并用支持向量机进行分类. 在保持BNS算法对于数据集偏斜问题的解决能力的基础上用Odds算法提高BNS算法的精确度.实验结果表明,用数据融 合思想将这两种方法结合可以有效弥补两种方法各自的不足,并能提高分类准确率. 关键词:特征提取;数据集偏斜;数据融合;支持向量机;Web文本分类 中图法分类号:TP391.4 文献标识码:A 文章编号:1000.7024(2009)10-2529.04 Research on combination feature selection method based on data fusion TAN Jia-ning,ZHU Yu—quart,CHEN Geng,ZHAI Guo (Department ofComputer Science and Telecommunication Engineering,Jiangsu are a University,Zhenjiang 212013,China) Abstract:There lot of methods are to select features of Web text,but they all have on their own disadvantages.to solve this problem, machines. the features ofweb text selected by BNS metrics and Odds metrics based data fusion and arc classified by support vector We can let Odds metrics improve the precision ofBNS metrics based 011 on keeping BNS can metrics’s capability ofresolving class skew.The of each method and improve experimental results indicate that combining these based the precision oftext data fusion greatly improve disadvantages classify. vector Key words:feature selection;class skew;data fusion;support machines;Web text classification 0引 言 着缺点和不足,并且对于影响分类效果的一个重要因素数据 集偏斜问题,这些算法都没有很好的解决能力嘲。对此,文献 【2】提出一种新的特征提取方法BNS法,可以有效解决数据集 偏斜问题,但提取特征维度很高,对分类器造成很大的负担。 多步骤或组合的提取方法是近几年提出的一种新的特征降维 思路脚,即首先用基本的特征选择方法确定初始的特征集,然 后以某种标准进行特征的补充,或者综合其它因素进行冗余 特征删减。朱祥玉等人采用双重评估函数进行文本特征提取, 陈涛等人用IIG和LSI对文本进行组合特征提取再聚类,研究 表明,这种思路能够有效降低特征维度,但均不能解决数据集 偏斜问题,而且采用哪种组合方式在保证组合算法的优势的 情况下达到最优解是关键亦是难点。 本文选用BNS和Odds两种特征提取算法采用组合特征 提取方法,力求在不影响分类准确度的情况下解决数据集偏 斜和特征维数高的问题。由于数据融合系统能够使每~数据 所携带的有用信息在其所处的局部过程中所起的作用不但不 被削减而且能够与其它部分的作用有机地承接在一起,从而 得到携带最大信息量的融合数据。本文用自适应融合算法建 立神经元数据融合系统用于特征组合。经实验证明取得良好 当前,Web已发展成为拥有数以亿计页面的分布式信息 空间,如何快速、有效地从信息空间中发现有价值的知识和信 息已成为信息技术领域的一个热门问题。其中,文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础,其 主要任务是在预先给定的类别标记集合下,根据文本内容判 定它的类别。针对网页非结构化、动态性、复杂性的特性,首 先要对网上获取到的网页信息进行格式分析,并自动转换成 便于处理的文本格式…。特征提取的对象是Web文本,是网页 分类最关键的环节之一,具有减低向量空间维数、简化计算、 防止过分拟合、以及去除噪音等作用。特征提取的好坏直接 影响着分类的准确率。 目前常用的特征提取算法有:文本频度(DF),词频(、ⅣF), 信息增益(IG),互信息(MI),期望交叉熵,文本证据权,优势率 等。它们都是在特征独立假设的基础上,通过构造函数,对特 征集合中的每个特征进行独立评估,并对每个特征打分,按分 值的大小选择特征项。 这些算法在Web文本挖掘中被广泛应用,但各自也存在 收稿日期:2008.06-02;修订日期:2008.09-27。 作者简介:谈佳宁(1982一),女,江苏镇江人,硕士研究生,研究方向为Web数据挖掘; 数据库系统、数据挖掘; 朱玉全(1966一),男,博士,副教授,研究方向为 翟国 陈耿(1965一),男,江苏无锡人,博士研究生,研究方向为数据挖掘、数据库系统及其应用、决策

http://istighcomputing.com/shujupianxie/370.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有