[发明专利]基于维数约简的集成迁移文本分类方法无效

申请号：	201310090096.0	申请日：	2013-03-20
公开（公告）号：	CN103218405A	公开（公告）日：	2013-07-24
发明（设计）人：	王爽;焦李成;刘婷婷;李鹏;侯彪;刘芳	申请（专利权）人：	西安电子科技大学;西安电子科技大学昆山创新研究院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	710126 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于维数约简集成迁移文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机文本处理技术；特别是涉及迁移学习的文本分类技术，为一种基于维数约简的集成迁移文本分类方法。

背景技术

机器学习已经广泛的应用到各个领域中，并取得了丰硕的成果，但它还具有训练数据与测试数据分布的局限性，即要求训练数据和测试数据服从相同分布的条件，根据已有的标记样本建立分类模型，对测试样本进行分类预测。随着科学技术的飞速发展，人们每天都会收集大量的数据，其中，web网页文本数据是其中重要的一种，数据信息的更新也越来越快，常常导致数据过期，传统的机器学习算法需要从零开始，重新标注大量的训练文本数据，但是标注新数据需要耗费大量的财力、人力及物力，若丢弃掉那些大量的不同分布下的过期的训练数据也造成了资源的浪费。

(1) 文本分类

文本分类是文本挖掘中的一个重要问题，是在给定的分类体系中，将大量的文本数据划分为两类或多类。文本分类的步骤主要包括获取训练文本，文本特征提取与表示，利用训练文本训练分类器，选择性能评价标准，为了保证文本分类的准确率，还包括测试文本的获取，测试问题的特征提取与表示，由训练分类器去预测测试文本的类别标签，并由性能评价标准评价分类器的性能。

(2)迁移学习

迁移学习是一种新的机器学习框架，旨在将一个环境中的知识应用到新环境的领域与任务中。因此，迁移学习不需要服从数据同分布假设的条件。迁移学习(Transfer Learning)是机器学习领域中崭新的分支，不再要求训练数据和测试数据服从同分布的假设，它强调的是在不同但相似领域、任务和分布间进行知识的迁移。

在许多实际应用值，文本信息不仅数量庞大，包含的内容也在快速的变化更新，例如，web网页的内容经常变化主题。

我们称目标任务的文本为目标域文本或新文本，称以往积累的大量的已分类的文本为源域文本或旧文本。如何最大限度地利用源域文本的分类信息，对目标域文本进行分类，成为一个急需解决的问题。迁移学习成为文本分类挖掘领域的热门研究方向。

在大量的过期的源域文本数据作为训练文本的情况下，对新的目标域文本进行分类，往往不很很好的利用源域样本的信息，分类性能不理想。所以，通过文本数据重组后经维数约简并集成，可以充分利用降维后差异性变小源域样本，来对目标域文本分类。

发明内容

基于上述现有技术存在的问题，本发明提出了一种基于维数约简的集成迁移文本分类方法，针对训练文本中仅有大量旧的源域文本的情况，利用迁移学习思想解决文本二分类问题，能有效地提高分类的准确率。

具体实现步骤包括如下：

(1) 输入源域文本数据和目标域文本数据，进行初步预处理，将文本数据转化为单词向量形式：

1a) 统计每个文本中不同单词出现的次数，并将出现次数小于2的词语对应的次数定为0；

1b) 使用TF-IDF作为特征选取度量的方式，得到文本中词语的权重；

1c)将权重作为样本特征值，得到每个文本样本的特征向量；

1d) 将每一个特征向量形式的样本归一化，使得该向量的模值为单位1。

(2) 将提取到的特征输入到目标域测试样本集和源域有标记的样本集，其中，和中的样本数目分别为和。