[发明专利]基于多粒度建模的半监督文本分类方法和系统有效

申请号：	202011004053.2	申请日：	2020-09-22
公开（公告）号：	CN112214597B	公开（公告）日：	2022-09-06
发明（设计）人：	余本功;汲浩敏;朱梦迪;王胡燕;王惠灵;张子薇;朱晓洁	申请（专利权）人：	合肥工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/08
代理公司：	北京久诚知识产权代理事务所(特殊普通合伙) 11542	代理人：	余罡
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于粒度建模监督文本分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多粒度建模的半监督文本分类方法，其特征在于，所述方法由计算机执行，包括以下步骤：

获取有标记的文本样本集L、未标记的文本样本集U、待分类文本T；

构建MG-SSC模型；其中，所述MG-SSC模型包括三通道的文本向量模型层、基分类器层和集成结果层；所述三通道的文本向量模型层包括第一通道、第二通道以及第三通道，所述基分类器层包括第一基分类器组A、第二基分类器组B以及第三基分类器组C；

基于所述第一通道分别对L、U和T进行编码得到L₁、U₁和T₁，基于所述第二通道分别对L、U和T进行编码得到L₂、U₂和T₂，基于所述第三通道分别对L、U和T进行编码得到L₃、U₃和T₃；

基于L₁训练第一基分类器组A得到训练后的第一基分类器组A₁，基于L₂训练第二基分类器组B得到训练后的第二基分类器组B₁，基于L₃训练第三基分类器组C得到训练后的第三基分类器组C₁；

基于第一基分类器组A₁获取U₁的分类预测结果，基于第二基分类器组B₁获取U₂的分类预测结果，基于第三基分类器组C₁获取U₃的分类预测结果；

基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，将处理后的文本样本基于所述第一通道进行编码后加入到L₁中得到L₁’，将处理后的文本样本基于所述第二通道进行编码后加入到L₂中得到L₂’，将处理后的文本样本基于所述第三通道进行编码后加入到L₃中得到L₃’；

基于L₁’训练第一基分类器组A₁得到训练后的第一基分类器组A₂，基于L₂’训练第二基分类器组B₁得到训练后的第二基分类器组B₂，基于L₃’训练第三基分类器组C₁得到训练后的第三基分类器组C₂；

基于第一基分类器组A₂获取T₁的分类预测结果，基于第二基分类器组B₂获取T₂的分类预测结果，基于第三基分类器组C₂获取T₃的分类预测结果；

基于所述集成结果层处理待分类文本T的多个分类预测结果，得到待分类文本T的最终分类结果；

所述第一通道包括BERT模型，所述第二通道包括Skip-gram模型，所述第三通道包括DBOW模型；

所述第一基分类器组A和所述第二基分类器组B以及第三基分类器组C相同，均包括：SVM基分类器、随机森林基分类器和KNN基分类器，其中，每个基分类器组组内使用Stacking方式对三个不同的基分类器进行集成；在基分类器组组间使用Bagging方式进行集成；

所述BERT模型用于对输入第一通道的样本进行字符级编码，所述Skip-gram模型用于对输入第二通道的样本进行词语级编码，所述DBOW模型用于对输入第三通道的样本进行句子级编码。

2.如权利要求1所述的方法，其特征在于，所述基于所述集成结果层对U中的文本样本的多个分类预测结果进行处理，得到处理后的文本样本，具体包括：

按照训练集补入规则中的类别均衡规则对U中的文本样本的多个分类预测结果进行均衡处理，将预测结果样本中规模最小的那个类别的样本数作为样本抽取的阈值m，对其他类别按共识的排序从高到低抽取m个样本，并将其他未被抽取的样本舍弃，然后得到处理后的文本样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于合肥工业大学，未经合肥工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011004053.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载