[发明专利]基于深度学习的文本分类方法、装置、服务器及存储介质在审
| 申请号: | 202011203373.0 | 申请日: | 2020-11-02 |
| 公开(公告)号: | CN112329836A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 朱永强;伍文成 | 申请(专利权)人: | 成都网安科技发展有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 成都极刻智慧知识产权代理事务所(普通合伙) 51310 | 代理人: | 唐维虎 |
| 地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 文本 分类 方法 装置 服务器 存储 介质 | ||
1.一种基于深度学习的文本分类方法,其特征在于,应用于服务器,所述方法包括:
对训练语料集合进行处理,构建所述训练语料集合对应的词权重表;
根据所述词权重表计算所述训练语料集合中每一训练语料的分句的分句权重,并按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集;
获取所述训练样本集中不同预设长度分区的分区样本集,并将每个分区样本集分别输入深度学习模型中进行训练,得到不同预设长度分区的文本分类模型;
基于所述文本分类模型对输入的待分类文本进行文本分类。
2.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述对训练语料集合进行处理,构建所述训练语料集合对应的词权重表步骤,包括:
获取训练语料集合,所述训练语料集合中的每个训练语料包括训练文本以及所述训练文本的类别标签;
对每个所述训练文本进行分词,得到所述训练文本对应的分词结果,所述分词结果由多个分词组成;
采用贝叶斯算法计算每个分词的贝叶斯后验概率,其中,所述贝叶斯后验概率用于表示当一个目标分词出现时,该目标分词对应的训练文本为每个类别标签的概率;
对所述每个分词的贝叶斯后验概率进行统计,获得所述每个分词的类别标签概率分布,并将所述类别标签概率分布的方差作为所述每个分词的词权重,其中,所述类别标签概率分布的方差表示所述类别标签概率分布的离散程度,当离散程度越大时,所述类别标签概率分布对应的类别标签的区分能力越大;
对所述每个分词的词权重进行排序得到所述训练语料集合对应的词权重表。
3.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述根据所述词权重表计算所述训练语料集合中每一分句的分句权重的步骤,包括:
对所述训练语料集合中每个训练语料进行分句,得到至少一个分句;
对每个所述分句进行分词,得到每个所述分句的分词结果;
从所述词权重表中获得每个所述分句的分词结果中每个分词的词权重,并将所述每个分词的词权重之和确定为所述分句的分句权重。
4.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述按照所述分句权重对每一训练语料进行关键分句筛选,得到关键分句筛选后的训练语料构成的训练样本集的步骤,包括:
计算每一训练语料的文本长度,其中,所述文本长度为所述训练语料中所有分句的分词总数量;
若所述训练语料的文本长度小于等于预设长度,则将所述训练语料的所有分句作为关键分句后进行合并,输出筛选后的训练语料;
若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量大于1,则按照所述分句权重对所述训练语料的分句进行排序,选取排序结果中的前N个分句作为关键分句后进行合并,输出筛选后的训练语料,其中,N为正整数,并且筛选后的训练语料的文本长度不大于所述预设长度;以及
若所述训练语料的文本长度大于所述预设长度,并且所述训练语料的分句数量为1,则将所述训练语料中超出所述预设长度的分词进行剔除后,输出筛选后的训练语料。
5.根据权利要求1所述的基于深度学习的文本分类方法,其特征在于,所述获取所述训练样本集中不同预设长度分区的分区样本集的步骤,包括:
获取所述训练样本集中每个预设长度分区的初始分区样本集;
判断每个预设长度分区的初始分区样本集中每个类别标签的样本数量与其它类别标签的样本数量的差异数量是否大于设定数量;
当该类别标签的样本数量与其它类别标签的样本数量的差异数量大于设定数量时,采用排列组合的方式对同类别标签的其它预设长度分区的初始分区样本集的分区样本进行关键句筛选后,得到排列组合后的新增分句,并将所述新增分句添加到该预设长度分区的初始分区样本集中,得到不同预设长度分区的分区样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011203373.0/1.html,转载请声明来源钻瓜专利网。





