[发明专利]基于维数约简的集成迁移文本分类方法无效
申请号: | 201310090096.0 | 申请日: | 2013-03-20 |
公开(公告)号: | CN103218405A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 王爽;焦李成;刘婷婷;李鹏;侯彪;刘芳 | 申请(专利权)人: | 西安电子科技大学;西安电子科技大学昆山创新研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 710126 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 维数约简 集成 迁移 文本 分类 方法 | ||
技术领域
本发明属于计算机文本处理技术;特别是涉及迁移学习的文本分类技术,为一种基于维数约简的集成迁移文本分类方法。
背景技术
机器学习已经广泛的应用到各个领域中,并取得了丰硕的成果,但它还具有训练数据与测试数据分布的局限性,即要求训练数据和测试数据服从相同分布的条件,根据已有的标记样本建立分类模型,对测试样本进行分类预测。随着科学技术的飞速发展,人们每天都会收集大量的数据,其中,web网页文本数据是其中重要的一种,数据信息的更新也越来越快,常常导致数据过期,传统的机器学习算法需要从零开始,重新标注大量的训练文本数据,但是标注新数据需要耗费大量的财力、人力及物力,若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。
(1) 文本分类
文本分类是文本挖掘中的一个重要问题,是在给定的分类体系中,将大量的文本数据划分为两类或多类。文本分类的步骤主要包括获取训练文本,文本特征提取与表示,利用训练文本训练分类器,选择性能评价标准,为了保证文本分类的准确率,还包括测试文本的获取,测试问题的特征提取与表示,由训练分类器去预测测试文本的类别标签,并由性能评价标准评价分类器的性能。
(2)迁移学习
迁移学习是一种新的机器学习框架,旨在将一个环境中的知识应用到新环境的领域与任务中。因此,迁移学习不需要服从数据同分布假设的条件。迁移学习(Transfer Learning)是机器学习领域中崭新的分支,不再要求训练数据和测试数据服从同分布的假设,它强调的是在不同但相似领域、任务和分布间进行知识的迁移。
在许多实际应用值,文本信息不仅数量庞大,包含的内容也在快速的变化更新,例如,web网页的内容经常变化主题。
我们称目标任务的文本为目标域文本或新文本,称以往积累的大量的已分类的文本为源域文本或旧文本。如何最大限度地利用源域文本的分类信息,对目标域文本进行分类,成为一个急需解决的问题。迁移学习成为文本分类挖掘领域的热门研究方向。
在大量的过期的源域文本数据作为训练文本的情况下,对新的目标域文本进行分类, 往往不很很好的利用源域样本的信息,分类性能不理想。所以,通过文本数据重组后经维数约简并集成,可以充分利用降维后差异性变小源域样本,来对目标域文本分类。
发明内容
基于上述现有技术存在的问题,本发明提出了一种基于维数约简的集成迁移文本分类方法,针对训练文本中仅有大量旧的源域文本的情况,利用迁移学习思想解决文本二分类问题,能有效地提高分类的准确率。
具体实现步骤包括如下:
(1) 输入源域文本数据和目标域文本数据,进行初步预处理,将文本数据转化为单词向量形式:
1a) 统计每个文本中不同单词出现的次数,并将出现次数小于2的词语对应的次数定为0;
1b) 使用TF-IDF作为特征选取度量的方式,得到文本中词语的权重;
1c)将权重作为样本特征值,得到每个文本样本的特征向量;
1d) 将每一个特征向量形式的样本归一化,使得该向量的模值为单位1。
(2) 将提取到的特征输入到目标域测试样本集 和源域有标记的样本集,其中,和中的样本数目分别为和。
(3) 对有标记的源域样本集进行Boostrap随机采样得到相应的源域子集,并与目标域测试文本数据集重新组合成新的数据子集:
3a) 设定采样次数为T次,并以K近邻算法作为基本分类算法,其中K值由参数分析后确定;
3b) 以概率p从所述源域文本集中有放回的随机选取源域样本子集,样本数目为;
3d) 将上步得到的源域子集分别与目标域样本集组合成新的数据子集,其中矩阵,每行表示一个样本向量,前行表示源域样本,后行表示目标域测试样本,则;
(4) 分别将数据子集中的两领域样本进行SVD奇异值分解:;
(5) 将数据集投影到低维空间,得到降维后的数据集:;
(6)在低维空间中,分别利用降维后的各数据子集中的源域样本对测试样本分类;
(7)检查所述算法的采样次数是否达到T,若已达到,则执行步骤(8);否则,返回步骤3b);
(8)采用投票的集成方式判定当前测试样本的标签,得票数多的预测结果作为最终的预测标签。
有益效果
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;西安电子科技大学昆山创新研究院,未经西安电子科技大学;西安电子科技大学昆山创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310090096.0/2.html,转载请声明来源钻瓜专利网。