[发明专利]一种文本分类方法以及装置有效
申请号: | 201910234804.0 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109992667B | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 王李鹏 | 申请(专利权)人: | 新华三大数据技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 刘静 |
地址: | 450000 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种文本分类方法以及装置,其中,该方法包括:获取待分类文本,确定样本词汇集中每个样本词汇出现在待分类文本中的次数;根据多个文本分类子模型分别使用的样本词汇,将样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;将每个分组中的样本词汇在待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定待分类文本的分类结果。本申请实施例在对文本进行分类时,具有更高的分类精度,满足较高精度的分类需求,进而基于该分类结果进行后续处理时,效率更高。 | ||
搜索关键词: | 一种 文本 分类 方法 以及 装置 | ||
【主权项】:
1.一种文本分类方法,其特征在于,包括:获取待分类文本,确定样本词汇集中每个样本词汇出现在所述待分类文本中的次数;所述样本词汇集中的样本词汇为基于文本分类子模型进行文本分类所使用的样本词汇;根据多个文本分类子模型分别使用的样本词汇,将所述样本词汇分成多个分组;其中,每个分组对应一个文本分类子模型,不同分组中的样本词汇不完全相同;将每个分组中的样本词汇在所述待分类文本中出现的次数,输入至与各个分组分别对应的文本分类子模型中,得到各个分组对应的子分类结果;基于各个分组对应的子分类结果,确定所述待分类文本的分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华三大数据技术有限公司,未经新华三大数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910234804.0/,转载请声明来源钻瓜专利网。