[发明专利]文本分类方法及装置在审
申请号: | 202011025556.8 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112182211A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 张宾;孙喜民;周晶;王明达;贾江凯 | 申请(专利权)人: | 国网电子商务有限公司;国网电商科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 | ||
1.一种文本分类方法,其特征在于,包括:
获取待分类的目标文本;
获取预先训练完成的分类模型;所述分类模型用于评估文本分别属于预设的各个文本类别对应的概率;
基于预先设置的第一文本模型及第二文本模型,对所述目标文本进行预处理,获得所述目标文本对应的目标文本向量;
将所述目标文本向量输入所述分类模型,以获得所述分类模型输出的所述目标文本分别属于每个所述文本类别对应的类别概率;
将所述目标文本分配至最大的类别概率对应的文本类别的类别目录中,完成对所述目标文本的分类。
2.根据权利要求1所述的方法,其特征在于,训练所述分类模型的过程,包括:
获取预先设置的测试数据集和训练数据集,所述测试数据集包含多个测试文本,及每个所述测试文本对应的测试文本标签,所述训练数据集中包含多个训练文本,及每个所述训练文本对应的训练文本标签;
基于所述第一文本模型及第二文本模型,对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理,获得每个所述测试文本对应的测试文本向量,以及每个所述训练文本对应的训练文本向量;
获取预先建立的分类模型,并应用各个训练文本向量以及每个训练文本向量对应的训练文本标签,对所述分类模型进行初步训练,直至获得初步训练完成的第一分类模型;
其中,将各个所述训练文本向量依次输入所述分类模型中,获得当前输入所述分类模型的训练文本向量对应的训练结果;基于所述训练文本向量对应的训练文本标签,判断所述训练结果是否满足预先设置的训练条件;若不满足,则调整所述分类模型中的各个模型参数;若满足,则结束对所述分类模型的初步训练,获得第一分类模型;
应用每个所述测试文本向量依次对所述第一分类模型进行强化训练,并在应用最后一个测试文本向量对所述第一分类模型进行强化训练结束后,获得最终完成训练的分类模型;
其中,应用当前的测试文本向量对所述第一分类模型进行强化训练的过程包括:将所述当前的测试文本向量输入所述第一分类模型中,获得所述当前的测试文本向量属于每个所述文本类别对应的测试概率;基于所述测试概率及预设的评估指标,确定最大测试概率对应的文本类别,并将所述最大测试概率对应的文本类别与所述当前的测试文本向量对应的测试文本标签进行比对,以确定是否需要调整该第一分类模型;若需要调整所述第一分类模型,则调整所述第一分类模型中的各个模型参数,并重新执行所述当前的测试文本对应的强化训练的过程;若不需要调整所述第一分类模型,则完成应用所述当前的测试文本向量对所述第一分类模型进行强化训练的过程。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一文本模型及第二文本模型,对所述测试数据集中的各个测试文本和训练数据集中的各个训练文本进行预处理,获得每个所述测试文本对应的测试文本向量,以及每个所述训练文本对应的训练文本向量,包括:
应用所述第一文本模型,将各个所述测试文本映射成测试文本字典,及各个所述训练文本映射成训练文本字典,并将各个所述测试文本字典转换成第一文本向量,将各个所述训练文本字典转换成第二文本向量;
向所述第二文本模型输入各个所述第一文本向量和第二文本向量,以使所述第二文本模型基于各个所述第一文本向量和第二文本向量,计算每个所述测试文本中各个词语的权重值,及每个所述训练文本中各个词语的权重值,以获得每个所述测试文本对应的测试文本向量及每个所述训练文本对应的训练文本向量。
4.根据权利要求1所述的方法,其特征在于,所述基于预先设置的第一文本模型及第二文本模型,对所述目标文本进行预处理,获得所述目标文本对应的目标文本向量,包括:
应用所述第一文本模型,将所述目标文本映射成目标文本字典,并将所述目标文本字典转换成第三文本向量;
向所述第二文本模型输入所述第三文本向量,以使所述第二文本模型基于所述第三文本向量,计算所述目标文本中各个词语的权重值,并基于所述目标文本中每个词语的权重值,获得所述目标文本对应的目标文本向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网电子商务有限公司;国网电商科技有限公司,未经国网电子商务有限公司;国网电商科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011025556.8/1.html,转载请声明来源钻瓜专利网。