[发明专利]一种基于迁移学习的绝对不平衡文本分类方法有效
申请号: | 201710675091.2 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107644057B | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 王宝亮;么素素 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 绝对 不平衡 文本 分类 方法 | ||
本发明涉及一种基于迁移学习的绝对不平衡文本分类方法,包括:文本数据预处理:划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关;文本向量化;级联结构各节点分类模型训练:采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式;最终分类结果由所有节点的分类器加权投票得出。
技术领域
本发明涉及一种文本分类方法。
背景技术
文本分类方面:
文本分类是自然语言处理中一个非常重要的应用领域。面对庞大的文本数据群,文本分类在文本信息的处理方面有着举足轻重的作用。同时文本分类时信息检索、信息过滤、搜索引擎等领域的基础。
随着web文本的海量增长,文本信息呈爆炸式增长趋势,已有的样本不足以训练一个可靠的模型,而新样本数据的标注费时费力。现实数据往往存在数据不平衡现象,目前针对不平衡问题研究,主要包含两种方法,一种是从数据层面平衡数据集,另一种是设计或改进学习算法,降低算法对类别不平衡度的敏感度,从而增强算法的鲁棒性。但是当训练数据绝对不平衡,少数类样本包含的信息不足以训练一个分类器,利用传统的不平衡学习方法,如直接训练分类器或者利用抽样方法平衡训练集都不能达到理想的分类效果。因此可以利用迁移学习在训练数据中引入辅助领域数据,帮助训练分类模型。
文本分类的整体流程如图(1)所示,主要包括:收集文本数据、分词、去停用词、特征选择,分类模型设计,分类模型性能评价。
迁移学习方面:
迁移学习是机器学习的一个重要分支,其打破了传统机器学习算法中训练数据与测试数据独立同分布的假设条件,使得可以有效利用过期数据进行学习。迁移学习主要包括实例迁移,特征迁移,参数迁移。TrAdaBoost算法是基于boosting技术的实例迁移算法,算法将辅助领域与目标领域数据直接组合作为训练集训练分类器模型。采用boosting技术可以将弱分类器算法通过组合提升为强学习算法,从而有效提升学习效果。但是该方法容易加重类别不平衡问题,目前针对上述问题提出了许多解决方案,但是这些方案没能同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题。
发明内容
本发明针对目标领域样本绝对不平衡问题,提供一种同时考虑辅助领域类别不平衡条件下的样本选择问题和领域间类别不平衡度不一致问题的绝对不平衡文本分类方法。本发明融合级联模型与集成迁移学习思想,提出基于级联模型的集成迁移学习算法,可以有效提高分类模型对目标领域少数类样本的识别率,从而实现更准确的文本分类。技术方案如下:
一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:
1)文本数据预处理
划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练;
2)文本向量化
3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频-反文档频率TF-IDF进行加权;
4)级联结构各节点分类模型训练
采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:
a.目标领域数据
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710675091.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文件存储方法、装置及系统
- 下一篇:一种数据加工处理系统