[发明专利]基于多粒度建模的半监督文本分类方法和系统有效
申请号: | 202011004053.2 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112214597B | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 余本功;汲浩敏;朱梦迪;王胡燕;王惠灵;张子薇;朱晓洁 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/08 |
代理公司: | 北京久诚知识产权代理事务所(特殊普通合伙) 11542 | 代理人: | 余罡 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 粒度 建模 监督 文本 分类 方法 系统 | ||
1.一种基于多粒度建模的半监督文本分类方法,其特征在于,所述方法由计算机执行,包括以下步骤:
获取有标记的文本样本集L、未标记的文本样本集U、待分类文本T;
构建MG-SSC模型;其中,所述MG-SSC模型包括三通道的文本向量模型层、基分类器层和集成结果层;所述三通道的文本向量模型层包括第一通道、第二通道以及第三通道,所述基分类器层包括第一基分类器组A、第二基分类器组B以及第三基分类器组C;
基于所述第一通道分别对L、U和T进行编码得到L1、U1和T1,基于所述第二通道分别对L、U和T进行编码得到L2、U2和T2,基于所述第三通道分别对L、U和T进行编码得到L3、U3和T3;
基于L1训练第一基分类器组A得到训练后的第一基分类器组A1,基于L2训练第二基分类器组B得到训练后的第二基分类器组B1,基于L3训练第三基分类器组C得到训练后的第三基分类器组C1;
基于第一基分类器组A1获取U1的分类预测结果,基于第二基分类器组B1获取U2的分类预测结果,基于第三基分类器组C1获取U3的分类预测结果;
基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理,得到处理后的文本样本,将处理后的文本样本基于所述第一通道进行编码后加入到L1中得到L1’,将处理后的文本样本基于所述第二通道进行编码后加入到L2中得到L2’,将处理后的文本样本基于所述第三通道进行编码后加入到L3中得到L3’;
基于L1’训练第一基分类器组A1得到训练后的第一基分类器组A2,基于L2’训练第二基分类器组B1得到训练后的第二基分类器组B2,基于L3’训练第三基分类器组C1得到训练后的第三基分类器组C2;
基于第一基分类器组A2获取T1的分类预测结果,基于第二基分类器组B2获取T2的分类预测结果,基于第三基分类器组C2获取T3的分类预测结果;
基于所述集成结果层处理待分类文本T的多个分类预测结果,得到待分类文本T的最终分类结果;
所述第一通道包括BERT模型,所述第二通道包括Skip-gram模型,所述第三通道包括DBOW模型;
所述第一基分类器组A和所述第二基分类器组B以及第三基分类器组C相同,均包括:SVM基分类器、随机森林基分类器和KNN基分类器,其中,每个基分类器组组内使用Stacking方式对三个不同的基分类器进行集成;在基分类器组组间使用Bagging方式进行集成;
所述BERT模型用于对输入第一通道的样本进行字符级编码,所述Skip-gram模型用于对输入第二通道的样本进行词语级编码,所述DBOW模型用于对输入第三通道的样本进行句子级编码。
2.如权利要求1所述的方法,其特征在于,所述基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理,得到处理后的文本样本,具体包括:
按照训练集补入规则中的类别均衡规则对U中的文本样本的多个分类预测结果进行均衡处理,将预测结果样本中规模最小的那个类别的样本数作为样本抽取的阈值m,对其他类别按共识的排序从高到低抽取m个样本,并将其他未被抽取的样本舍弃,然后得到处理后的文本样本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011004053.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于汽车清洗的汽车零部件震荡清洗装置
- 下一篇:内存分配方法及相关设备