[发明专利]一种文本分类方法以及装置有效
申请号: | 201910234804.0 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109992667B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 王李鹏 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 刘静 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 方法 以及 装置 | ||
1.一种文本分类方法,其特征在于,包括:
获取待分类文本,确定样本词汇集中每个样本词汇出现在所述待分类文本中的次数;所述样本词汇集中的样本词汇为基于文本分类子模型进行文本分类所使用的样本词汇;
根据多个文本分类子模型分别使用的样本词汇,将所述样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;
将每个分组中的样本词汇在所述待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;
基于各个分组对应的子分类结果,确定所述待分类文本的分类结果;
各个所述文本分类子模型分别使用的样本词汇是通过以下步骤确定的:
获取样本文本;
基于每个样本词汇在各个所述样本文本中出现的次数,确定每个所述样本词汇对应的重要性得分;
基于各个所述样本词汇对应的重要性得分以及预设的聚类算法,将所述样本词汇分成多个分类;
针对每个分类,将该分类中包括的多个样本词汇随机分成多个子类;
从每个分类中分别选择一个子类,并将选择的所有子类中包括的样本词汇,确定为一个分组;
将每个分组中的样本词汇确定为各个所述文本分类子模型分别使用的样本词汇。
2.根据权利要求1所述的文本分类方法,其特征在于,采用下述方式构建所述样本词汇集:
根据在各个所述样本文本中出现的词汇,构建所述样本词汇集;所述样本词汇集中的样本词汇为在至少一个所述样本文本中出现的词汇。
3.根据权利要求2所述的文本分类方法,其特征在于,所述根据在各个所述样本文本中出现的词汇,构建所述样本词汇集,包括:
对各个所述样本文本进行分词处理,获取每个所述样本文本中出现的词汇;
去除每个样本文本中出现的词汇中的停用词;
针对每个所述样本文本,从该样本文本对应的去除了停用词的词汇中,确定该样本文本对应的样本词汇;
将各个所述样本文本对应的样本词汇,确定为所述样本词汇集中的样本词汇。
4.根据权利要求1所述的文本分类方法,其特征在于,基于每个样本词汇在各个所述样本文本中出现的次数,确定每个所述样本词汇对应的重要性得分,包括:
基于每个所述样本词汇在各个所述样本文本中出现的次数,构建随机森林模型;所述随机森林模型中包括多棵决策树;不同决策树所使用的样本词汇不同;
基于各个所述样本词汇在各个测试文本中出现的次数,计算与各棵决策树对应的第一测试数据误差;
针对每个样本词汇,对该样本词汇在各个所述测试文本中出现的次数加入随机噪声干扰,得到该样本词汇在各个所述测试文本中出现的干扰次数;
基于该样本词汇在各个所述测试文本中出现的干扰次数,以及除该样本词汇外的其他样本词汇在各个所述测试文本中出现的次数,计算与各棵决策树对应的第二测试数据误差;
基于所述第一测试数据误差以及所述第二测试数据误差,计算该样本词汇的重要性得分。
5.根据权利要求2所述的文本分类方法,其特征在于,采用下述方式训练得到各个所述文本分类子模型:
获取与每个所述样本文本对应的实际分类结果,并确定所述样本词汇集中每个样本词汇在各个所述样本文本中出现的次数;
根据多个文本分类子模型分别使用的样本词汇,将所述样本词汇分成多个分组;
根据各个分组中的样本词汇在各个所述样本文本中出现的次数,以及与每个所述样本文本对应的实际分类结果,训练得到与各个分组分别对应的文本分类子模型。
6.根据权利要求5所述的文本分类方法,其特征在于,所述根据各个分组中的样本词汇在各个所述样本文本中出现的次数,以及与每个所述样本文本对应的实际分类结果,训练得到与各个分组分别对应的文本分类子模型,包括:
确定与各个分组分别对应的基础分类模型;
将各个分组中的样本词汇在各个所述样本文本中出现的次数,作为对应的基础分类模型的自变量的值,并将各个所述样本文本对应的实际分类结果作为因变量的值,训练所述基础分类模型,得到与各个所述分组分别对应的文本分类子模型。
7.一种文本分类装置,其特征在于,该装置包括:
获取模块,用于获取待分类文本,确定样本词汇集中每个样本词汇出现在所述待分类文本中的次数;所述样本词汇集中的词汇为基于文本分类子模型进行文本分类所使用的样本词汇;
分组模块,用于根据多个文本分类子模型分别使用的样本词汇,将所述样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;
分类模块,用于将每个分组中的样本词汇在所述待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定所述待分类文本的分类结果;
还包括构建模块,所述构建模块,用于采用下述方法确定各个所述文本分类子模型分别使用的样本词汇:
获取样本文本;
基于每个样本词汇在各个所述样本文本中出现的次数,确定每个所述样本词汇对应的重要性得分;
基于各个所述样本词汇对应的重要性得分以及预设的聚类算法,将所述样本词汇分成多个分类;
针对每个分类,将该分类中包括的多个样本词汇随机分成多个子类;
从每个分类中分别选择一个子类,并将选择的所有子类中包括的样本词汇,确定为一个分组;
将每个分组中的样本词汇确定为各个所述文本分类子模型分别使用的样本词汇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910234804.0/1.html,转载请声明来源钻瓜专利网。