[发明专利]一种基于迁移学习的绝对不平衡文本分类方法有效
申请号: | 201710675091.2 | 申请日: | 2017-08-09 |
公开(公告)号: | CN107644057B | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 王宝亮;么素素 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于迁移学习的绝对不平衡文本分类方法,包括:文本数据预处理:划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关;文本向量化;级联结构各节点分类模型训练:采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式;最终分类结果由所有节点的分类器加权投票得出。 | ||
搜索关键词: | 一种 基于 迁移 学习 绝对 不平衡 文本 分类 方法 | ||
【主权项】:
一种基于迁移学习的绝对不平衡文本分类方法,包括下列步骤:1)文本数据预处理划分目标领域数据与辅助领域数据,其中辅助领域数据与目标领域数据分布不同,但是相关,辅助领域中存在更为适合训练目标领域分类模型的样本;经过数据清洗后在目标领域数据中随机选择80%的数据作为目标领域训练数据,剩余20%作为分类模型性能评估的测试数据,辅助领域全部数据均参与分类器训练。2)文本向量化3)采取词袋模型对目标领域数据进行分词,并生成文本词典;将每篇文献表示为字典长度的向量,每个特征的权重利用词频‑反文档频率TF‑IDF进行加权;4)级联结构各节点分类模型训练采用改进的Tradaboost算法,用辅助领域数据平衡训练集,并通过级联结构逐渐平衡领域间权重以及不同类别样本权重,对于不同领域不同类别的样本采取不同的权重更新方式,改进如下:a.目标领域数据对目标领域数据,采取Adaboost算法的权重更新方法,权重更新因子大于1,将错分样本视为对分类模型训练有益样本,增加权重;b.辅助领域负类样本对不平衡学习,目标领域数据中负类样本数量远多于正类样本数量,权重更新因子小于1,错分样本权重降低;c.辅助领域正类样本对于辅助领域正类样本,引入权重恢复因子σ动态调整权重更新因子,σ与目标领域正负类样本分类准确率相关,当目标领域正负类分类准确率一致时,σ趋近于1,此时权重更新因子趋近于βsrc,其中ns为辅助领域样本数量,m为迭代次数;当目标领域正类样本的准确率高于负类样本的准确率时,σ<1,此时权重更新因子降低,降低正类错分样本权重;当目标领域正类样本准确率低于负类样本准确率时,σ>1,此时权重更新因子增加,提高正类错分样本权重;5)利用级联结构逐渐平衡数据集除第一个节点外,每个节点都要利用上一节点训练的分类器和样本权重对辅助领域样本进行筛选,对于权重小于阈值的辅助领域数据,将其视为不相关样本进行删除;对于正确分类的辅助领域样本,将其视为冗余样本进行删除;6)级联结构分类模型融合最终分类结果由所有节点的分类器加权投票得出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710675091.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种文件存储方法、装置及系统
- 下一篇:一种数据加工处理系统